U-StyDiT — Ultra-high Quality Artistic Style Transfer Using Diffusion Transformers

DeepLearning-Paper-with-Code · Diffusion Model · arXiv(2025) / ICCV(2025) · 360 AI Research · Zhanjie Zhang et al.
核心论点关键概念实证证据方法论

🎮 费曼一分钟

任务:给定内容图 + 风格图,生成超高画质艺术风格化结果——结构跟内容、笔触跟风格,且无伪影/不和谐纹理。

痛点:① 风格重建派(InstantX/IP-Adapter)只训风格 adapter,推理另挂 Canny 保结构 → 两路条件信息打架;② 解耦派(CSGO/StyleShot)用 UNet DiT 弱、WikiArt Canny 糊,画质上限低。

U-StyDiT:在 FLUX.1-dev(MM-DiT)全参微调,训练时从同一张风格图同时学内容(Canny)与风格(MSM)。

MSM:$1024^2$ 风格图 → 全局 $512^2$ + 10 个局部 patch;局部 token 通道拼接 + MLP 压缩,再与全局混合 → 多视角风格 token $T_{lgs}$。

StyDiT Block:$T_{gsc}=\lambda T_c + T_{gs}$,MMA 拼接 $[T_{gsc}; T_t; T_{lgs}]$;推理 $\lambda$ 调内容强度。

Aes4M:10 类 × 40 万 = 400 万张 $1024^2$ 高清艺术图(高美学 + 图文一致 + 清晰 Canny)。SSIM 0.421、美学分 6.974、欺骗率 78.1% SOTA。

Abstract

原文翻译解析

Ultra-high quality artistic style transfer repaints a content image using style from a style image. Existing methods (style reconstruction vs. content-style disentanglement) produce artifacts and disharmonious patterns.

U-StyDiT on DiT learns disentanglement: MSM (local+global style) + StyDiT Block (joint content/style). Dataset Aes4M: 10 categories × 400K style images. First transformer-diffusion method for ultra-high quality stylization.

超高画质风格迁移:用风格图重绘内容图。现有两类方法均有明显伪影。

提出 DiT 框架 U-StyDiT:多视角风格调制器 + StyDiT 块联合学内容与风格;发布 Aes4M 四百万艺术图数据集;首个基于 Transformer Diffusion 的超高画质风格迁移。

定位

InstantX(外挂 Canny)相对:本文在同一 FLUX 训练流里联合优化 Canny 内容与 MSM 风格。与 CSGO 相对:换 DiT 骨干 + 自建高清数据。360 系(RelaCtrl/WISA/ArtBank 同组作者)。

📄 Figure 1:U-StyDiT 风格迁移结果

风格迁移定性结果
多组 content + style → 高保真风格化;结构保留、风格一致。点击放大。

1. Introduction

原文翻译解析

Style reconstruction (IP-Adapter, InstantX, ArtBank…): train style adapter only; at inference add Canny for structure — style & Canny trained on different data → confusion & artifacts (Fig.2 col.4).

Disentanglement (CSGO, StyleShot…): learn content+style jointly but UNet DiT limits + poor datasets → not ultra-high quality.

WikiArt artistic textures make Canny extraction poor — hard to co-train content & style conditions (Fig.10).

风格重建派:只训风格,推理加 Canny → 两路条件数据集不一致,信息混淆。

解耦派:联合训练但 UNet 能力有限、数据质量不足。

WikiArt 艺术纹理导致 Canny 不清晰,阻碍内容与风格同步训练。

核心洞察

问题不只是「有没有 Canny」,而是Canny 与风格条件是否在同一分布、同一训练目标下学到。Aes4M 用合成高清图保证 Canny 可提取(阈值 200/100)。

📄 Figure 2 & 10:基线对比 & Aes4M vs WikiArt Canny

与 InstantX CSGO 对比
InstantX/CSGO 伪影与不和谐纹理;U-StyDiT 更干净。点击放大。
Aes4M Canny 更清晰
Aes4M 的 Canny 比 WikiArt 更清晰,利于联合训练。点击放大。

Aes4M Dataset

原文翻译解析

Scale: 10 categories × 400K = 4M images at $1024\times1024$.

Categories: oil, cartoon, Gufeng, pixel, paint, 3D, sketch, Peking opera, cute, wash painting.

Pipeline: Civitai LoRA × {SD3, SD3.5, SDXL, FLUX} → GPT-4o 1.7M prompts → filter: CLIP consistency >30, aesthetic >7, image–Canny CLIP >0.67 → ~400K/category.

四百万张、十类艺术风格、1024 分辨率。

油画/卡通/古风/像素/水彩/3D/素描/京剧/可爱/水墨等。

LoRA 控风格批量生成 → 三重过滤保图文一致、美学、Canny 可用性。

数据 vs WikiArt

不是收集人类画作,而是可控合成——牺牲「纯真实」换 Canny 清晰 + 图文对齐。与 StyleShot/CSGO 三元组数据不同:训练只需单张风格图自重建(text + Canny + MSM style → 原图)。

3. Methods

原文翻译解析

Training objective: reconstruct style image $I_{gs}$ from text $I_t$, Canny content, and MSM style tokens — learned from same $I_s\in$Aes4M.

Given $1024^2$ $I_s$: resize → $I_{gs}$ ($512^2$); random crop 10 patches $\{I_{ls}^i\}$ ($512^2$ each).

Encoder → $T_{gs}$, $\{T_{ls}^i\}$. Channel-concat patches → $T_{ls}$; MLP weights $\alpha$ compress → $\hat{T}_{ls}$; Mix with $T_{gs}$ → MSA+FFN → $T_{lgs}$ (Eq. MSM).

训练:用文本、Canny、风格 token 重建同一张风格图(自监督式解耦)。

高分辨率图缩全局 + 随机裁 10 局部 patch,兼顾算力与细节。

局部 token 不丢弃低相似 patch(区别于 StyleMaster/LGAST),通道合并后 MLP 压缩再与全局混合。

MSM 压缩动机

若对 $\{T_{gs}, T_{ls}^1,\ldots,T_{ls}^{10}\}$ 做全交叉注意力,序列长度爆炸。通道维 concat + 逐 token MLP 加权求和 → 把 10 路局部压回与全局可比的 token 数,再 2 层 MSA。

📄 Figure 3:训练流水线

训练流水线
Aes4M $1024^2$ → 全局 $512^2$ + 多 patch;ChatGLM 提文本;Canny 阈值 200/100。点击放大。

StyDiT Block (extends OminiControl MMA):

$$T_{gsc} = \lambda T_c + T_{gs}, \quad \lambda \in [0,1]$$

$$\mathrm{StyDiT}([T_{gs}; T_t; T_{lgs}; \lambda T_c]) = \mathrm{MMA}([T_{gsc}; T_t; T_{lgs}])$$

$T_c$: Canny VAE tokens; $T_{gs}$: resized style image tokens; $T_{lgs}$: MSM output.

在 OminiControl 条件 token 注入基础上,把 Canny 线性融入图像 token(非单独第四路拼接的简化表述)。

$\lambda$ 控制内容(结构)强度;训练时从风格图同时得到 $T_c$ 与 $T_{lgs}$,实现内容-风格联合学习。

vs InstantX

InstantX:FLUX + 外挂 Canny ControlNet/IP。本文:单模型内 $T_{gsc}$ 融合,训练数据保证 Canny/风格同源 → 减少 Fig.2 第 4 列类伪影。

📄 Figure 4:MSM & StyDiT 结构

MSM StyDiT 细节
左:局部 patch 合并压缩;右:StyDiT 中 Canny 与风格 token 注入 MMA。点击放大。
flowchart TB
  subgraph train [Training on Aes4M style image I_s]
    Is[1024 style I_s] --> Gs[Global 512 I_gs]
    Is --> P10[10x random 512 patches]
    Gs --> Tgs[T_gs VAE tokens]
    P10 --> TLS[MSM compress local tokens]
    Tgs --> MSM[MSM MSA+FFN]
    TLS --> MSM
    MSM --> Tlgs[T_lgs mixed style]
    Gs --> Canny[Canny T_c]
    Canny --> Tgsc["T_gsc = λ T_c + T_gs"]
    Tgs --> Tgsc
    Tgsc --> MMA[StyDiT MMA + T_t + T_lgs]
    Tlgs --> MMA
    MMA --> Recon[Reconstruct I_gs]
  end
  subgraph infer [Inference]
    Cimg[Content image] --> Cc[Canny T_c]
    Simg[Style image] --> MSM2[MSM]
    MSM2 --> Tlgs2[T_lgs]
    Cc --> Gen[U-StyDiT denoise]
    Tlgs2 --> Gen
  end
自绘:训练自重建 vs 推理 content+style(点击放大)。

📄 Figure 13:推理流水线(附录)

推理流水线
内容图 → Canny + ChatGLM 文本;风格图 → resize + 10 patch(小图则 duplicate);送入 U-StyDiT 采样。点击放大。

4. Experiments

MetricU-StyDiTInstantXCSGOStyleShotStyleID
SSIM↑0.4210.2310.2560.1530.376
CLIP Score↑0.6230.5510.5600.6150.552
Aesthetic↑6.9746.3326.1596.7206.611
Deception Rate↑0.7810.6450.5970.5860.531
Time (s)↓23.12527.21218.9164.93414.641

50 content × 20 style → 1000 pairs. Preference study: 100 pairs, 40 users, 2000 votes — aggregate favor 59.3% vs baselines.

结构相似度、风格 CLIP、美学分、人类欺骗率全面第一;推理 23s(512²,A40),比 InstantX 快但慢于 StyleShot。

训练:32×A100,batch 2×accum 4,200 万 iter,全参微调 FLUX.1-dev。

指标解读

SSIM 大幅领先 → 内容结构保留是主要卖点。美学分 6.974 > InstantStyle 6.882。Preference 表里 InST 单项 61.4% 曾胜本文,但综合 59.3* 为论文宣称均值。

📄 Figure 5:与 SOTA 定性对比

SOTA 定性对比
vs InstantX, StyleID, InstantStyle, InST, StyleAligned, CSGO, StyleShot。点击放大。

MSM ablation (Fig.11): w/o $T_{ls}$ → local color confusion, lower CLIP & aesthetic; w/o $T_{gs}$ → artifacts, weak global stylization.

StyDiT $\lambda$ ablation (Fig.12): $\lambda$ from 0.1→1 — higher $\lambda$ → higher structural similarity to content.

去掉局部 token:同色物体颜色不一致;去掉全局 token:伪影、细节风格化不足。

$\lambda$ 越大越贴内容结构,越小越自由风格化。

实用旋钮

推理时 $\lambda$ 是唯一显式内容强度旋钮(类似 ControlNet weight)。训练固定 Canny 阈值;未讨论 per-style 自适应 $\lambda$。

📄 Figure 11–12:MSM & StyDiT 消融

MSM 消融
w/o 局部 / w/o 全局风格 token 对比。点击放大。
lambda 消融
$\lambda=0.1$ 到 $1.0$ 内容可控性渐变。点击放大。

5. Conclusion

First transformer-diffusion framework for ultra-high quality artistic style transfer: MSM + StyDiT + Aes4M. Limitation: only 10 style categories — not open-world arbitrary style transfer at scale.

MSM 多视角风格 + StyDiT 联合解耦 + Aes4M 数据;局限:仅 10 类风格,算力/人力限制无法扩到开放世界任意风格。

局限

无官方开源权重;全参微调 FLUX 成本极高;Aes4M 合成数据域与真实油画摄影仍有 gap;推理慢于轻量 UNet 方法。

符号速查表

符号含义
$I_s, I_{gs}, I_{ls}^i$原风格图 $1024^2$ / 全局 $512^2$ / 第 $i$ 个局部 patch
$T_{gs}, T_{ls}, T_{lgs}$全局 / 局部 / 混合风格 token
$T_c, T_{gsc}$Canny 内容 token / 与风格图 token 融合后的视觉 token
MSMMulti-view Style Modulator
$\lambda$Canny 内容条件强度,$[0,1]$
Aes4M10 类 × 40 万,共 400 万 $1024^2$ 艺术图
StyDiT扩展 MMA 的联合内容-风格 DiT 块

论证总览

问题:风格迁移要超高画质,但重建派 Canny+风格冲突,解耦派 UNet+低质数据上限低

假说:FLUX DiT 上从同一张图联合学 Canny(内容) + MSM(风格)

MSM:1024→全局512 + 10局部patch;通道合并+MLP压缩;不丢低相似patch

StyDiT:T_gsc = λT_c + T_gs;MMA([T_gsc; T_t; T_lgs])

Aes4M:合成400万高清图,Canny/美学/图文三重过滤

全参微调 2M iter → SSIM/美学/欺骗率 SOTA;λ 推理可控
强项:首个 DiT 超高画质风格迁移闭环;MSM 多视角+压缩有算力意识;Aes4M 直击 WikiArt Canny 痛点;与 OminiControl/FLUX 生态衔接自然。
弱项:10 类封闭风格;全参 FLUX 训练门槛极高;数据全合成;Preference 并非项项第一;无公开代码。

🧩 结构化十问(AI 解构)

Q1 · 这篇论文要解决什么问题?
艺术风格迁移中生成超高画质、无伪影的风格化图:保留内容结构、迁移风格图笔触,并克服现有方法的不和谐纹理与模糊。
Q2 · 现有两类方法各差在哪?
风格重建派(InstantX 等)只训风格 adapter,推理外挂 Canny,两路条件训练数据不一致 → 信息混淆。解耦派(CSGO/StyleShot)联合学但 UNet DiT 弱 + WikiArt 等数据 Canny 差 → 画质上限低。
Q3 · U-StyDiT 核心创新是什么?
MSM 从全局+10 局部 patch 提取风格 token;② StyDiT Block 在 FLUX MMA 上联合注入 Canny 内容与混合风格 token;③ Aes4M 400 万高清合成艺术数据集。
Q4 · MSM 为什么不直接丢掉低相似 patch?
低相似局部 patch 往往含风格图的独特纹理/笔触(StyleMaster/LGAST 丢弃会损风格)。本文用通道 concat + MLP 加权压缩,在保留信息的同时控制注意力复杂度。
Q5 · StyDiT 与 OminiControl 有何关系?
OminiControl 把条件图 token $T_s$ 拼进 MMA:$[T_i; T_t; T_s]$。StyDiT 用 MSM 的 $T_{lgs}$ 作风格条件,并把 Canny 以 $T_{gsc}=\lambda T_c+T_{gs}$ 融入视觉 token,实现同图训练的内容-风格解耦
Q6 · Aes4M 怎么构建?可信吗?
Civitai LoRA + {SD3, SD3.5, SDXL, FLUX} 批量生成;GPT-4o 170 万 prompt;过滤图文一致、美学>7、图-Canny CLIP>0.67。优点是 Canny 清晰可控;风险是合成域偏差,与真实艺术品收藏分布不同。
Q7 · 训练与推理各输入什么?
训练:单张 Aes4M 风格图 → 文本(ChatGLM) + Canny + MSM 风格 → 重建 $I_{gs}$。推理:内容图 Canny + 文本;风格图经 MSM;噪声采样生成风格化结果。$\lambda$ 调结构保留度。
Q8 · 实验能证明有效吗?
SSIM 0.421(结构)、CLIP 0.623(风格)、美学 6.974、欺骗率 78.1% 均领先 Tab.1 七基线;Fig.5 定性伪影更少;Fig.11–12 消融支持 MSM 与 $\lambda$ 设计。
Q9 · 主要代价与局限?
32×A100 全参微调 FLUX 200 万步;推理 ~23s/512²;仅 10 类风格非开放世界;作者自述无法扩到数十万风格类。
Q10 · 与 RelaCtrl / ArtBank 如何衔接?
同 360/ZJU 线:ArtBank 隐式风格库、RelaCtrl 高效条件注入、本文专攻DiT 艺术风格迁移全链路。可看作「高质量风格数据(Aes4M) + FLUX 条件注入(MSM/StyDiT)」的垂直整合。

🔬 深挖

训练=解耦、推理=组合

训练从未见过「内容图+风格图」配对;而是让网络从同一张风格图分离出 Canny 与 MSM 特征并重建。推理时把 content 的 Canny 与 style 的 MSM 特征重新组合——类似 CSGO 三元组思路,但监督来自自重建而非显式三元组数据集。

1024 信息如何进 512 训练?

全图 resize 丢细节 → 用 10 个 $512^2$ crop 补局部高频;这是 MSM 存在的直接动机,也是相对「只 resize」的信息守恒权衡。

批判性思维 · 盲区

  • SSIM 与感知质量:结构指标高是否牺牲风格夸张度?CLIP 风格分仅略胜 StyleShot。
  • 10 patch 超参:$n{=}10$ 固定,无敏感性曲线(算力/质量 Pareto)。
  • 封闭类别:LoRA 十类能否泛化到用户随手拍的风格图?
  • 全参 vs LoRA:2M iter 全参 FLUX 不可复现门槛;未报告 LoRA-only 上限。
  • Preference 细节:对 InST/InstantStyle 单项偏好低于对方,需看是否因结构过强牺牲风格主观喜好。