Overview

There are the overall of paper with code for CV / AIGC / LLM / VLM.
https://github.com/Gojay001/paper-with-code-skills.
[Updating…]


ControlNet — Adding Conditional Control to Text-to-Image Diffusion Models

大扩散模型(如 Stable Diffusion)只会听文字,难精确控构图、姿态、边缘。ControlNet = 锁住原 U-Net 权重 + 复制可训练支路,用 zero-init 1×1 卷积渐进注入条件,不破坏预训练能力。可训 Canny / depth / pose / seg 等;小数据集也稳;「sudden convergence」现象——几百步后 loss 突然下降、条件控制突然学会。

ChordEdit — One-Step Low-Energy Transport for Image Editing

一步文生图模型(如 SD-Turbo、SwiftBrush-v2、InstaFlow)把原本需要几十步的扩散蒸馏成一次前向就能出图——合成速度极快,自然让人期待「实时编辑」。但把传统编辑套路(源/目标 prompt 的 drift 差分)硬塞进一步模型会彻底翻车:物体严重扭曲、背景碎裂——因为 naive 编辑场是两个大幅度、发散轨迹的算术差,能量高、方差大,单步大积分误差累积致命。

CogVideoX — Text-to-Video Diffusion Models with An Expert Transformer

文生视频 = 扩散 + DiT,但旧模型动作小、时长短、叙事难连贯。CogVideoX 四件套:3D 因果 VAE(时空 8×8×4 压缩,减 flicker)+ Expert Transformer(文本/视频 Expert AdaLN + 3D full attention 替代 2D+1D 分离注意力)+ Multi-Resolution Frame Pack(混时长/分辨率 batch 训练)+ 密集 caption 流水线(Panda70M → CogVLM 帧 caption → GPT-4 汇总 → CogVLM2-Caption)。产出 768×1360、16fps、10 秒视…

SD 3 — Scaling Rectified Flow Transformers

SD 1.x/2.x 像沿着弯弯曲曲的河道把噪声「擦」成图——DDPM/VP 调度路径长,少步采样容易糊。Rectified Flow(整流流)则走直线:$z_t=(1-t)x_0+t\epsilon$,数据与噪声之间一根绳,理论上一步就能走完(实际仍需多步积分,但比弯曲扩散更省步)。本文(SD3)的第一招是:在大规模文生图里证明「直线流 + 聪明的时间步采样」能打赢传统 LDM-linear / EDM 扩散配方。

FM — Flow Matching for Generative Modeling

想象生成一张图片,就像把一片噪声云慢慢「流」成一座数据岛:起点是随机混沌,终点是清晰图像。扩散模型(DDPM)走的是一条绕远路的弯曲河道——粒子必须沿预设的 VP 噪声调度蜿蜒前行,采样步数多、路径长;而最优传输(OT)则像直线航道,两点之间最短。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×