WISA — World Simulator Assistant for Physics-Aware Text-to-Video Generation

DeepLearning-Paper-with-Code · Video Generation · arXiv(2025) / NeurIPS(2025) · SYSU & 360 AI Research
核心论点 关键概念 实证证据 让步/反驳 方法论

🎮 费曼一分钟(通俗速读)

通俗速读 · 先建立模糊认知,再读正文

Sora、Kling、CogVideoX 能生成逼真视频,但常违反物理:橡皮擦越擦字越黑、苹果落水没有溅起水花、液体运动像随机噪声。根因是抽象物理定律像素生成之间缺桥梁——模型只学「画面像什么」,没学「过程该怎么演化」。

WISA(World Simulator Assistant)做两件事:① 把物理知识拆成三层结构化条件——文本物理描述(补全 prompt)、定性 29 类物理标签(碰撞/熔化/折射…)、定量属性(运动密度、时间/温度范围);② 在 CogVideoX-5B 等基座上插入 MoPA(每类物理一个 attention head 专家)和 Physical Classifier(逼模型「认出」场景里有哪些物理现象)。配套数据集 WISA-32K:人工采集 3.2 万条「物理现象清晰可见」的短片,GPT-4o mini 自动标注。

关键数字:基座 CogVideoX-5B · VideoPhy SA 0.67(+0.07)PC 0.38(+0.05)· 推理 220s vs PhyT2V 1800s · 参数 +3.5%、推理 +5%

📄 Teaser:WISA-32K 覆盖 17 类物理现象

WISA-32K 17 类物理现象示意
动力学 / 热力学 / 光学三大分支下 17 类常见物理现象(碰撞、刚性体运动、熔化、反射等)。点击放大。

Abstract

原文翻译解析

Recent T2V models (SoRA, Kling) show potential for world simulators, but struggle to grasp abstract physical principles and generate videos adhering to physical laws — due to lack of clear physical guidance.

We introduce WISA, decomposing physical principles into textual descriptions, qualitative categories, and quantitative properties. Key designs: MoPA and Physical Classifier. Dataset WISA-32K: 32,000 videos, 17 physical laws across dynamics, thermodynamics, optics. Considerable improvement on VideoPhy.

SoRA、Kling 等 T2V 有构建世界模拟器的潜力,但难以理解抽象物理原理、生成符合物理定律的视频——缺清晰物理引导。

提出 WISA:物理原理分解为文本描述、定性类别、定量属性;MoPA + Physical Classifier 嵌入生成。WISA-32K 含 3.2 万视频、17 类物理定律。VideoPhy 显著提升。

概括主张

双贡献:框架(结构化物理条件 + MoPA/Classifier)+ 数据(WISA-32K)。与 PhyT2V 等「推理时迭代改 prompt」不同,WISA 走训练时物理先验注入路线,推理几乎无额外开销。

1. Introduction

原文翻译解析

Gap: Physical laws are abstract language; generative models map text → visual appearance. The reasoning chain from principle to phenomenon is missing — worse in video where temporal order of events must hold.

Three-level decomposition: (1) Textual physical description — concatenated with caption before text encoder; (2) Qualitative categories — 17 phenomena × 3 branches → 29 labels incl. motion/state auxiliaries; MoPA assigns one expert head per category; (3) Quantitative properties — density, time range, temperature → AdaLN embeddings.

Data problem: General datasets (Koala-36M, OpenVid) entangle multiple weak physical cues — water flow as background, not primary subject (Fig. data_compare).

鸿沟:物理定律是抽象语言;生成模型做文本→外观映射。原理到现象的推理链缺失;视频还需保持事件时序。

三层分解:① 文本物理描述拼进 caption;② 定性 29 类标签 + MoPA 每类一头;③ 定量密度/时间/温度经 AdaLN 注入。

数据问题:通用数据集中物理现象弱耦合、多过程交织——如 Koala 里水流只是背景,模型难学流体定律。

问题设定

与 PhyT2V / Cosmos 对比

PhyT2V:生成后 VLM 打分 → 改 prompt 多轮(~9× 推理时延)。WISA:训练内化物理,220s 单次生成。Cosmos:世界模型路线但 PC 低(0.18),时序混乱。

📄 Figure:Koala-36M vs WISA-32K 数据对比

通用场景视频与 WISA-32K 物理突出视频对比
上:Koala 通用场景——物理过程弱、多现象耦合;下:WISA-32K——单一物理现象清晰可辨。点击放大。

2. WISA-32K

原文翻译解析

17 phenomena under Dynamics (6): Collision, Rigid Body, Elastic, Liquid, Gas, Deformation; Thermodynamics (6): Melting, Solidification, Vaporization, Liquefaction, Explosion, Combustion; Optics (5): Reflection, Refraction, Scattering, Interference/Diffraction, Unnatural Light.

Pipeline: Manual collection (32K, no on-screen text) → PySceneDetect shot split → aesthetic filter → Qwen2-VL caption (256 tokens) → GPT-4o mini structured annotation (5 rounds qualitative + 3 rounds quantitative).

29 qualitative categories = 17 phenomena + 3 "no obvious X" + 9 visual/motion state tags. Quantitative: motion density, time span, temperature span (scientific notation in model).

17 类现象:动力学 6(碰撞、刚体、弹性、液体、气体、形变);热力学 6(熔化、凝固、汽化、液化、爆炸、燃烧);光学 5(反射、折射、散射、干涉衍射、非自然光源)。

流水线:人工采集 → 镜头切分 → 美学过滤 → Qwen2-VL 描述 → GPT-4o mini 结构化标注。

定性共 29 类;定量含运动密度、时间范围、温度范围。

数据工程

Caption-based 标注 vs 多模态直标:准确率 76% vs 78%,但 token 成本约 2k vs 10k/样本——性价比选 caption 路线。项目页后续扩展为 WISA-80K,论文主实验用 32K。

📄 Figure:WISA-32K 数据流水线

WISA-32K 采集与标注流水线
定义 17 类 → 人工采集 32K → 切分/过滤 → Qwen2-VL caption → GPT-4o mini 三层物理标注。点击放大。

3. Method

原文翻译解析

Base: CogVideoX-5B. Text descriptions → concat with caption, use frozen text encoder semantics.

Physical Module (MoPA): $P_c \in \mathbb{R}^{C}$, $C{=}29$. Multi-head self-attention with $h{=}C$ heads; $\hat{P_c} = \mathrm{Random}(P_c)$ noise (flip 0↔1 w.p. 0.2); $F_o = \mathrm{Linear}(\mathrm{Reshape}(F_h \odot \hat{P_c}))$.

Quantitative: time/temperature in scientific notation → linear map → concat timestep → AdaLN into denoising features.

Placement: One Physical Module after the last DiT block only (+3.5% params).

基座 CogVideoX-5B。文本物理描述与 caption 拼接进文本编码器。

MoPA:29 维类别向量;MHSA 输出 $F_h$ 与扰动后的 $\hat{P_c}$ 逐元素乘,再线性还原维度——只激活相关物理专家头。

定量属性科学计数法编码后经 AdaLN 注入。Physical Module 仅插在最后一个 Transformer block 之后。

MoPA 机制

受 MoH(Mixture-of-Heads)启发:每个 head = 一类物理专家。Random 扰动缓解标注噪声(错标/漏标)。Attention map 可视化(Fig. atten_map):刚体运动 expert 聚焦摆锤区域,非动力学 expert 看静态背景——专家分工成立。

详见 代码 §②PhysAttnProcessor_2_0 的 soft_priori 逻辑。

Physical Classifier: Multi-label BCE on $P_c$; predicted $f_c$ from denoising features + sigmoid.

$$L = L_{\mathrm{diffusion}} + \lambda L_{pc} / (1 + L_{pc}.\mathrm{detach})$$

Classifier forces the model to recognize abstract categories, not only generate pixels — auxiliary task stabilizes physics learning.

Physical Classifier:多标签 BCE;从去噪特征预测 29 维概率。

总损失:扩散损失 + 自适应加权的分类损失($L_{pc}$ 大时权重自动缩小,防 dominate)。

分类器迫使模型「理解」物理类别,而非纯像素拟合。

消融支撑

去掉 Physical Module:SA 0.64 PC 0.33;去掉 Classifier:SA 0.66 PC 0.36;完整 WISA:0.67 / 0.38。两者均贡献 PC,Classifier 对 SA 也有帮助。

📄 Figure:WISA 整体架构

WISA Physical Module 与 Physical Classifier 架构
三层物理条件分别注入:文本描述→caption 拼接;定性类别→MoPA;定量属性→AdaLN。末层后插 Physical Module + Classifier。点击放大。
flowchart LR
  subgraph inputs [物理条件三层]
    T[文本物理描述]
    Q[定性 29 类 P_c]
    V[定量 密度/时间/温度]
  end
  T --> TE[Text Encoder + Caption]
  Q --> MoPA[MoPA 专家头门控]
  V --> AdaLN[Quantify AdaLN]
  TE --> DiT[CogVideoX DiT Blocks]
  DiT --> PM[Physical Module]
  MoPA --> PM
  AdaLN --> PM
  PM --> PC[Physical Classifier]
  PC --> Loss["L_diff + λ·L_pc/(1+L_pc)"]
  PM --> VAE[VAE Decode]
自绘:WISA 条件注入与损失流(点击 Mermaid 图可放大)。

💻 代码对照 — MoPA · Classifier · CogVideoX 集成

官方仓库:github.com/360CVGroup/WISA(基于 finetrainers,支持 CogVideoX / Wan2.1)。数据:HuggingFace qihoo360/WISA

① 论文模块 → 代码文件映射

论文代码路径说明
MoPA / Random 扰动finetrainers/models/wisa.py · PhysAttnProcessor_2_0soft_priori:0↔1 以 0.2 概率翻转,0 默认 0.1
Physical ModulePhysAwareBlock in transformer_cogvideox_wisa.py末层后 phys_attn + AdaLN scale/shift
定量 AdaLNQuantifyPrioriEmbedding科学计数法 → sin/cos 频域嵌入
Physical Classifierphys_classifier + phys_tokenprepend 可学习 token,BCE loss
训练入口train.py · wisa_specification.pySFT on WISA-32K/80K
推理 Pipelinepipeline_cogvideox_wisa.py需传入 priori + quantify_priori

② MoPA 门控 — 与 Eq.(1) 对齐的伪代码

# wisa.py — PhysAttnProcessor_2_0(简化) def soft_priori(priori, p_flip=0.2): # priori: [B, C=29] 0/1 多标签 r = torch.rand_like(priori) soft = priori.clone() soft[(priori==0) & (r < p_flip)] = 1.0 soft[(priori==0) & (r >= p_flip)] = 0.1 soft[(priori==1) & (r < p_flip)] = 0.1 # 1 且未 flip → 保持 1.0 return soft # 对应论文 Random(P_c) Fh = MHSA(F) # [B, N, d*h], h=C gates = soft_priori(priori).unsqueeze(1) # broadcast 到序列 out = linear(reshape(Fh * gates)) # 逐 head 门控后 concat

代码里 CogVideoX 实现 expert_head = expert_head * 2(shared + routed heads),比论文公式更贴近 MoH 原版;Wan 分支用 transformer_wan_wisa.py 同样模式。

③ Physical Module 插入位置

# transformer_cogvideox_wisa.py — forward 核心 for block, phys_block in zip(transformer_blocks, phys_transformer_blocks): hidden_states, enc = block(...) # 标准 CogVideoX block if not isinstance(phys_block, nn.Identity): hidden_states, enc = phys_block( # 仅最后一层 phys_block 非 Identity hidden_states, enc, phys_temb=timestep_phys, # 定量 prior → AdaLN priori=priori, # 定性 29 类 quantify_priori=quantify_priori, ) phys_tokens, hidden_states = hidden_states[:, 0], hidden_states[:, 1:] physical_logits = phys_classifier(phys_tokens) loss_pc = BCEWithLogitsLoss(physical_logits, priori)

④ 推理时需显式传入物理条件

与纯 CogVideoX 不同,pipeline_cogvideox_wisa_multicfg 支持多组物理条件 CFG。生产环境可用 GPT 从 prompt 推断 priori 向量(论文训练时用 WISA-32K 标注;推理可用 LLM 填 29 维或项目提供的工具)。

论文 vs 代码:论文写「仅最后一个 block 后插 Physical Module」;代码用与 block 等长的 phys_transformer_blocks 列表,仅末项为 PhysAwareBlock,其余 nn.Identity()——结构等价,便于扩展多层 phys block 做 ablation。

4. Experiments

原文翻译解析

Metric: VideoCon-Physics (VideoPhy) — SA (semantic alignment) & PC (physical law consistency). Threshold ≥0.5 → binary PC/SA = 1.

Prompts: 344 VideoPhy + 160 PhyGenBench physics-crafted prompts.

指标:VideoCon-Physics 的 SA 与 PC;≥0.5 记为 1。

测试集:VideoPhy 344 条 + PhyGenBench 160 条物理向 prompt。

评测设定

VideoCon-Physics 训练数据来自 9 个 T2V 模型生成样本——与 WISA-32K 真实物理视频有分布差;作者 ablation 指出纯 LoRA 提升有限(SA 0.64),需 WISA 结构 + 专用数据。

MethodTime(s)VideoPhy SAVideoPhy PCPhyGen SAPhyGen PC
VideoCrafter20.470.36
HunyuanVideo0.460.28
CogVideoX-5B*2100.600.330.390.41
Cosmos*6000.570.180.430.14
PhyT2V* (R4)18000.610.37
WISA2200.670.380.400.43

WISA VideoPhy SA/PC 双 SOTA;PhyGenBench PC 0.43 SOTA。相对 CogVideoX-5B:SA +0.07、PC +0.05,推理仅 +10s。PhyT2V PC 略高(0.42 on PhyGen)但推理 9× 慢。

定性案例
  • 橡皮擦:WISA 擦净笔迹;CogVideoX 无笔迹;PhyT2V 越擦越黑;Cosmos 无擦除过程。
  • 苹果落水:WISA 先平静水面→溅起→浮力;基线水体混乱或缺下落过程。

📄 Figure:与现有 T2V 定性对比

WISA 与 CogVideoX PhyT2V Cosmos 定性对比
橡皮擦、苹果落水等案例:WISA 时序与物理更合理。点击放大。

📄 Figure:WISA 更多生成样例

WISA 覆盖多种物理现象的生成结果
覆盖额外物理现象的成功生成。点击放大。

📄 Figure:MoPA 专家 Attention Map

不同物理专家 attention 热力图
刚体运动 expert 聚焦摆动区域;非动力学 expert 关注静态背景。点击放大。

📄 Figure:人工评测

VideoPhy prompt 上人工评测排名
语义一致性与物理对齐双维度人工排序:WISA 物理对齐显著领先。点击放大。

5. Conclusion & Limitation

原文翻译解析

WISA decomposes physical principles into structured information and guides T2V via MoPA + Physical Classifier + WISA-32K. +3.5% params, +5% inference.

Limits: (1) Only 17 phenomena — no corrosion/vacuum etc.; (2) High-level semantic guidance only — no explicit energy/Newton constraints; (3) Imperfect physics in hard scenarios.

WISA 结构化物理信息 + MoPA/Classifier + WISA-32K 有效提升物理一致性,开销小。

局限:① 物理类别覆盖有限;② 缺机制级约束(能量守恒等);③ 数据/参数有限,难全覆盖。

诚实边界

PC 0.38 仍不高——物理评测本身难;WISA 是「物理语义引导」而非 PDE 求解器。与可微物理引擎 / NeRF+仿真路线互补而非替代。

符号速查表

符号 / 术语含义
WISAWorld Simulator Assistant,物理感知 T2V 辅助框架
MoPAMixture-of-Physical-Experts Attention,每物理类一头
$P_c$, $C{=}29$定性物理类别多标签向量
$\hat{P_c}$Random 扰动后的类别门控(缓解标注噪声)
$F_h$, $F_o$MHSA 输出与门控后恢复的特征
$L_{pc}$Physical Classifier 多标签 BCE
WISA-32K3.2 万物理突出视频 + 三层标注
SA / PCVideoPhy 语义对齐 / 物理定律一致性
VideoCon-PhysicsVideoPhy 基准的 VLM 评判器

论证结构总览

问题(T2V 不懂物理 · 抽象定律与像素生成鸿沟 · 视频时序)
→ 观察(通用数据物理弱耦合 · Koala 水流只是背景)
→ 论点(三层物理信息分解 + MoPA/Classifier + 专用数据)
→ 方法(文本拼 caption · 29 类门控 MHSA · 定量 AdaLN · 末层单 Physical Module)
→ 数据(WISA-32K:17 类 · Qwen2-VL + GPT-4o mini 标注)
→ 证据(VideoPhy SA 0.67 PC 0.38 · 220s · ablation · attention map · human eval)
→ 局限(17 类 · 无机制级约束 · PC 仍有限)
→ 结论(世界模拟器辅助路线 · 开源 360CVGroup/WISA)

核心主张(一句话)

将物理原理结构化为可训练条件(文本/定性/定量),用 MoPA 专家注意力与 Physical Classifier 微调 CogVideoX-5B,配合 WISA-32K,以极小开销显著提升 VideoPhy 物理一致性。

论证最强处:问题—数据—方法闭环清晰;与 PhyT2V 效率对比鲜明;ablation 分离 Module/Classifier/Data;attention 可视化支撑 MoPA 可解释性。
论证最弱处:PC 绝对值仍低;推理时需 29 维 priori 来源未完全标准化;VideoCon 评判器与训练数据分布差;17 类远不够「世界模拟器」。

来源:arXiv:2503.08153 · NeurIPS 2025 · Project Page · GitHub

🧩 结构化十问(AI 解构)

让 AI 当助教,从十个角度提取论文骨架。

Q1 · 论文试图解决什么问题?
T2V 模型(Sora、Kling、CogVideoX)虽逼真,但不理解抽象物理原理,生成违反定律(错误时序、错误因果)。缺从「物理概念」到「视觉现象」的显式引导。
Q2 · 这是否是一个新问题?
物理一致性是 VideoPhy/PhyGenBench 已定义的问题;PhyT2V 等已有方案。新在于:训练时三层结构化物理条件 + MoPA 专家头 + 专用 WISA-32K 组合,且推理开销接近基座(非多轮 prompt 优化)。
Q3 · 要验证什么科学假设?
假设:① 物理信息分解为文本/定性/定量比单一 prompt 更有效;② MoPA 让不同物理现象由不同 expert 建模;③ Classifier 辅助理解抽象类别;④ 「物理突出」数据优于通用场景抽样(Koala 32K 对照)。
Q4 · 有哪些相关研究?
  • 世界模型:Sora, Cosmos, CogVideoX, HunyuanVideo
  • 物理评测:VideoPhy, PhyGenBench, VideoCon-Physics
  • 物理增强生成:PhyT2V(迭代 prompt)
  • MoE/MoH:MoPA 受 MoH 启发
作者:Jing Wang, Ao Ma, Ke Cao 等(中山大学 & 360 AI Research)。
Q5 · 解决方案的关键是什么?
三层物理条件与对应注入(拼接 / MoPA / AdaLN);② 末层 Physical Module 控制算力;③ Physical Classifier + 自适应损失;④ WISA-32K 人工采集 + VLM caption + LLM 结构化标注。
Q6 · 实验是如何设计的?
基座 CogVideoX-5B 微调;VideoPhy 344 + PhyGenBench 160 prompts;SA/PC 二值化阈值 0.5;对比 VideoCrafter2、Hunyuan、Cosmos、PhyT2V;ablation 去 Module/Classifier、换 Koala 数据、仅 LoRA;人工排序 + attention 可视化。
Q7 · 用什么数据集?代码开源吗?
训练:WISA-32K(论文)/ 项目页 WISA-80K。评测:VideoPhy、PhyGenBench prompt 列表。代码:360CVGroup/WISA;权重 HuggingFace qihoo360/WISA
Q8 · 实验结果是否支持假设?
较好支持:SA/PC 双提升、Koala 对照失败、ablation 各组件有效、attention map 有专家分工。保留:PC 0.38 仍 modest;PhyGen PC 与 PhyT2V 接近;评测器偏差未完全消除。
Q9 · 贡献是什么?
① 物理原理结构化分解方法;② WISA 框架(MoPA + Classifier);③ WISA-32K 首个大规模物理突出视频集;④ 高效物理感知 T2V(+3.5% 参数 / +5% 延迟)SOTA VideoPhy。
Q10 · 下一步可以做什么?
扩展物理类别与机制级约束(PDE/仿真器蒸馏);推理时自动从 prompt 预测 priori;与 Wan2.1-14B 等更强基座结合(repo 已支持);可微物理 loss;统一 WISA-32K vs 80K 论文口径;更公平的物理 benchmark。

🔬 深挖追问

第一性原理 · 为何要「分解」物理信息?

单一 prompt 把「场景描述」与「物理定律」混在同一语义空间,T5/LLM 编码后梯度信号纠缠。分解后:文本描述走已有语义通道补全因果叙述;定性标签提供离散开关选 expert;定量调制扩散时间步强度——类似 ControlNet 多条件,但条件语义是物理专用的。

第一性原理 · MoPA vs 标准 Cross-Attention

Cross-attn 把文本 token attend 到视觉 token,但「碰撞」与「熔化」在文本 embedding 空间可能相近。MoPA 在视觉 self-attn 的 head 维硬分工——每 head 只学一类物理的空间—时间模式,门控 $P_c$ 在推理时选专家。比增大 prompt 更直接地控制「激活哪种物理动力学模板」。

第一性原理 · 数据为何必须「物理突出」?

因果 identifiability:若数据中物理与背景共变(Koala 风景+水流),模型学 $P(\text{video}|\text{caption})$ 时物理信号被稀释。WISA-32K 强制单现象高 SNR——类似 ImageNet 对物体分类的必要性,物理类别需要「教科书式」样例。

批判性思维 · 盲区

  • 推理 priori 从哪来?训练用 GT 标注;用户只给自然语言 prompt 时,29 维向量需 LLM 推断——错误 priori 可能激活错专家。
  • PC 0.38 的含义:VideoCon 是生成式评判器,可能偏好 WISA 风格;需更多 human + 规则物理检测。
  • 与 Wan2.1 关系:repo 支持 Wan,论文主表仅 CogVideoX-5B——更强基座 + WISA 上限未在正文充分展开。
  • 非物理场景:29 类「无显然 X 现象」标签是否损害通用美学生成?论文未报告非物理 prompt 退化。
  • 机制级物理:作者承认缺能量守恒等硬约束——WISA 是 soft guidance,非 simulator。