Overview

There are the overall of paper with code for CV / AIGC / LLM / VLM.
https://github.com/Gojay001/paper-with-code-skills.
[Updating…]


SD 3 — Scaling Rectified Flow Transformers

SD 1.x/2.x 像沿着弯弯曲曲的河道把噪声「擦」成图——DDPM/VP 调度路径长,少步采样容易糊。Rectified Flow(整流流)则走直线:$z_t=(1-t)x_0+t\epsilon$,数据与噪声之间一根绳,理论上一步就能走完(实际仍需多步积分,但比弯曲扩散更省步)。本文(SD3)的第一招是:在大规模文生图里证明「直线流 + 聪明的时间步采样」能打赢传统 LDM-linear / EDM 扩散配方。

FM — Flow Matching for Generative Modeling

想象生成一张图片,就像把一片噪声云慢慢「流」成一座数据岛:起点是随机混沌,终点是清晰图像。扩散模型(DDPM)走的是一条绕远路的弯曲河道——粒子必须沿预设的 VP 噪声调度蜿蜒前行,采样步数多、路径长;而最优传输(OT)则像直线航道,两点之间最短。

SD - Stable Diffusion

以前的扩散模型(如 DDPM)直接在「像素世界」里反复擦噪点画图——一张 512×512 的图有 78 万个像素,每一步去噪都要在这么大的画布上算一遍,训练动辄几百张 GPU 卡跑上几周。本文(潜在扩散 LDM,也就是后来的 Stable Diffusion)的核心招数是:先把图压缩到一个小很多的「缩略草稿世界」里再画。

DDPM — Denoising Diffusion Probabilistic Models

想象一个「倒放」游戏:先把一张清晰照片一帧帧泼上雪花噪点,直到变成满屏的电视雪花;DDPM 要训练 AI 学会把这个过程倒着放——从纯雪花开始,一步步擦掉噪点,最后还原出一张全新的、以前没见过的照片。

源码实现-Normalization

本文整理 BatchNorm / LayerNorm / RMSNorm 的作用与差异,并给出与 PyTorch 思路一致的简化实现(dummy),便于对照官方源码阅读。


Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×