Overview

There are the overall of paper with code for CV / AIGC / LLM / VLM.
https://github.com/Gojay001/paper-with-code-skills.
[Updating…]


RelaCtrl — Relevance-Guided Efficient Control for DiT

给 DiT 加「可控生成」(Canny、Depth、Seg 等)时,主流做法很「笨重」:PixArt-δ 直接复制前 13 个 DiT block 做 ControlNet,参数和 FLOPs 各涨约 50%;OminiControl 把控制 token 拼进序列,token 数翻倍,FLOPs 涨约 70%。更关键的是——它们假设每一层对控制信号同等重要,均匀堆控制模块,造成大量冗余。

WISA — World Simulator Assistant

Sora、Kling、CogVideoX 能生成逼真视频,但常违反物理:橡皮擦越擦字越黑、苹果落水没有溅起水花、液体运动像随机噪声。根因是抽象物理定律与像素生成之间缺桥梁——模型只学「画面像什么」,没学「过程该怎么演化」。

FancyVideo — Cross-frame Textual Guidance

痛点:AnimateDiff 等 T2V 把同一段 text embedding 复制到每一帧做 spatial cross-attention → [verb] 关注区几乎不变 → 动作弱、长视频更明显。

PixArt-δ — Fast and Controllable Image Generation with LCM

PixArt-α 已是高效 DiT 文生图基座;PixArt-δ 在其上叠两层能力:LCM 蒸馏把采样从 14 步压到 2–4 步,A100 上 0.5s/1024px(相对 α 约 7× 加速);ControlNet-Transformer 把边缘/深度等条件注入 DiT,实现细粒度可控生成。

PixArt-α — Fast Training DiT for T2I

文生图(T2I)训练极贵——Stable Diffusion 1.5 级别模型常需数百万 GPU 时。PixArt-α 的核心思路是「分阶段解耦」:不要一上来就 1024px + 文本 + 美学一起学,而是拆成三步——先学像素依赖(低分辨率、无文本),再学文图对齐,最后学美学与高分辨率。每一步只解决一个子问题,训练更稳、更省。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×