Overview

There are the overall of paper with code for CV / AIGC / LLM / VLM.
https://github.com/Gojay001/paper-with-code-skills.
[Updating…]


InnoAds-Composer — 电商海报三条件高效合成

任务:电商海报 = 一张图里同时摆对商品主体、促销文案、背景风格。多阶段 pipeline(先合成场景再贴字)常出现主体走样、文字错字、风格不统一。

MoFu — Scale-Aware Modulation and Fourier Fusion for Multi-Subject Video Generation

任务:多主体视频生成——给定文本 + 多张参考图,生成多主体一致、尺度自然的视频。

Lay2Story — Layout-Togglable Story Generation

Storytelling:用一组 prompt 生成多帧图,主角外观要一致。现有 training-free(改 cross-frame attention)和 training-based 都难精细控制位置、衣着、表情、姿势,且缺大规模带 layout 标注的数据。

Qihoo-T2X — Proxy-Tokenized DiT for Text-to-Any-Task

问题:DiT 全局 self-attention 对视觉 token 是 $O(N^2)$,高分辨率图/长视频算不动;且 PixArt 注意力图显示同窗口内 token 对远处位置注意力几乎一样——大量全局注意力是冗余的。

U-StyDiT — Ultra-high Quality Artistic Style Transfer Using Diffusion Transformers

任务:给定内容图 + 风格图,生成超高画质艺术风格化结果——结构跟内容、笔触跟风格,且无伪影/不和谐纹理。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×