Overview

There are the overall of paper with code for CV / AIGC / LLM / VLM.
https://github.com/Gojay001/paper-with-code-skills.
[Updating…]


Lay2Story — Layout-Togglable Story Generation

Storytelling:用一组 prompt 生成多帧图,主角外观要一致。现有 training-free(改 cross-frame attention)和 training-based 都难精细控制位置、衣着、表情、姿势,且缺大规模带 layout 标注的数据。

Qihoo-T2X — Proxy-Tokenized DiT for Text-to-Any-Task

问题:DiT 全局 self-attention 对视觉 token 是 $O(N^2)$,高分辨率图/长视频算不动;且 PixArt 注意力图显示同窗口内 token 对远处位置注意力几乎一样——大量全局注意力是冗余的。

U-StyDiT — Ultra-high Quality Artistic Style Transfer Using Diffusion Transformers

任务:给定内容图 + 风格图,生成超高画质艺术风格化结果——结构跟内容、笔触跟风格,且无伪影/不和谐纹理。

RelaCtrl — Relevance-Guided Efficient Control for DiT

给 DiT 加「可控生成」(Canny、Depth、Seg 等)时,主流做法很「笨重」:PixArt-δ 直接复制前 13 个 DiT block 做 ControlNet,参数和 FLOPs 各涨约 50%;OminiControl 把控制 token 拼进序列,token 数翻倍,FLOPs 涨约 70%。更关键的是——它们假设每一层对控制信号同等重要,均匀堆控制模块,造成大量冗余。

WISA — World Simulator Assistant

Sora、Kling、CogVideoX 能生成逼真视频,但常违反物理:橡皮擦越擦字越黑、苹果落水没有溅起水花、液体运动像随机噪声。根因是抽象物理定律与像素生成之间缺桥梁——模型只学「画面像什么」,没学「过程该怎么演化」。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×