今日 AIGC 论文速览
今日共 6 篇 · 视频扩散与推理加速 2 篇 · 图像生成与表征 2 篇 · 图像编辑与对齐评测 1 篇 · RL 后训练方法论 1 篇 · 重点 1 篇深度解读
重点论文标题列表
- AnyFlow
- AsymFlow:rank-asymmetric
- Qwen-Image-VAE-2.0:高压缩 VAE 套件
- Edit-Compass:EditReward-Compass
- Orthrus:双视图框架
重点论文深度解读
首个任意步数视频扩散蒸馏框架——把 ODE 轨迹一次喂给学生 | 新加坡国立大学 Show Lab, MIT, NVIDIA | arXiv:2605.13724
关键词: 视频扩散, Flow Map, On-Policy 蒸馏, Any-Step, 推理加速
研究动机
核心问题: 少步视频扩散一致性蒸馏在采样步数增加时反而退化,无法服务「任意步数」推理需求
近一年的少步视频生成几乎被一致性蒸馏(Consistency Distillation, CD)统治,4-8 步即可出图,但只要把采样步数从 4 加到 16/32,画质反而会塌——这与扩散模型「采样步数越多质量越好」的常识相悖。原因在于 CD 用一致性轨迹替换了原始的 PF-ODE 轨迹,破坏了 ODE 采样在测试时的可扩展行为,使得模型无法真正服务「任意步数」推理需求。如何让一个学生模型同时在 1 步、4 步和 32 步下都给出与教师匹配甚至更好的视频,成为视频扩散落地(实时预览 vs. 高质量出片)的关键瓶颈。
前序工作及局限:
- Consistency Models (CM):端点一致性映射 z_t→z_0,固定步数下加速但破坏 ODE scaling
- LCM/PCM:把 CM 用到大规模视频/图像扩散,少步效果好但 8 步以上不再提升
- Shortcut Models:学习区间跳跃但仍以 off-policy 数据训练,存在 exposure bias
与前序工作的本质区别: AnyFlow 把蒸馏目标从端点一致性映射升级为任意区间的 flow map 过渡,并通过 Flow Map Backward Simulation 用 on-policy rollout 替代 off-policy 配对,是少步视频蒸馏中第一个真正在策略上做的方案
方法原理

提出 AnyFlow——首个基于 flow map 的任意步数视频扩散蒸馏框架。三个核心改造:(1) 把蒸馏目标从端点一致性映射 z_t→z_0 改为流图过渡学习 z_t→z_r,让学生学会任意时间区间 [t,r] 的跳跃,从而原生支持任意步数采样;(2) 提出 Flow Map Backward Simulation(FMBS),将完整的 Euler rollout 分解为多段 shortcut flow-map 过渡,在 on-policy 数据上蒸馏,缓解少步采样的离散化误差和因果生成的 exposure bias;(3) 在 1.3B 到 14B 的双向与因果架构上统一适用,无需修改教师网络结构,仅靠新的训练目标即可获得「步数越多越好」的良性 scaling 行为。
核心创新
- 首次系统指出 consistency distillation 的「步数缩放悖论」,并把蒸馏目标从端点一致性升级到任意区间的 flow map;Flow Map Backward Simulation 用 on-policy rollout 取代 off-policy 配对,是少步视频蒸馏中第一个真正在策略上做的方案;覆盖 1.3B/14B、双向/因果两类主流视频扩散架构,证明该范式具备普适性,给少步视频生成提供了一条新范式。
实验结果

- 在双向 DiT 视频扩散和因果视频扩散两类骨干上,AnyFlow 在 1B-14B 的全规模区间一致达到或超越基于 consistency 的少步蒸馏方法;当采样步数从 4 提升到 16、32 时,性能不再退化,反而随预算单调上升,重新恢复了 ODE 采样的 test-time scaling 优势。在 14B 视频模型上,少步生成质量直追教师全步,表现出明显的「随计算预算增长」良性曲线。
批判性点评
- 新颖性: 把蒸馏目标从端点一致性升级到 flow map 过渡是范式级创新,FMBS 的 on-policy 反向模拟在视频域是首次系统化提出,相比同期 shortcut 类工作在策略性上更彻底
- 可复现性: 训练需要 1B-14B 量级视频扩散教师 + 大规模 on-policy rollout,复现门槛在数据与算力两端都不低;好在不改网络结构,仅蒸馏目标与训练流程不同,工程上易接入现有 DiT 视频扩散框架
- 影响力: 为「少步视频扩散」打开任意步数推理的天花板,预计将影响下一代实时视频生成、可交互世界模型等高频推理场景的标准训练流程
深度点评:
- 从端点一致性到任意区间流图 — AnyFlow 的核心洞察是:少步视频扩散之所以「步数越多越糟」,本质是因为一致性蒸馏把原本服从 ODE 轨迹的预测压成了端点映射,破坏了 test-time scaling。把目标改成 z_t→z_r 的任意区间过渡 + on-policy 反向模拟,等于把 ODE 轨迹完整地交还给学生——这一调整看似只是损失函数的变更,背后却是对「蒸馏究竟该学什么」的根本反思。
技术演进定位: 处于「少步视频扩散」从一致性蒸馏到流图蒸馏的范式转变前沿,是任意步数视频生成的代表性方法
可能的后续方向:
- 有望推动统一的「任意步数 + 任意架构」视频扩散蒸馏标准,未来与因果视频生成、世界模型结合后可支撑实时交互式视频内容创作
其余论文速览
1. AsymFlow:rank-asymmetric
Asymmetric Flow Models | Stanford, ETH | arXiv:2605.12964
关键词:Flow Matching·像素扩散·非对称参数化·FLUX.2·文生图
- 前序问题:高维像素空间下做 flow matching 速度预测时,模型需要建模与图像同维的高维噪声,即使数据本身有强低秩结构也只能用满秩参数化硬扛,导致像素扩散模型与潜空间模型之间长期存在显著质量差距
- 本文贡献:提出 AsymFlow:rank-asymmetric 的速度参数化——噪声预测限制在低秩子空间,数据预测保持满维,不改网络结构与训练/采样流程即可解析恢复完整速度;并首次给出潜空间预训练模型→像素空间微调的可行路径,让 FLUX.2 klein 9B 的潜空间先验能直接初始化像素生成
- 实验效果:ImageNet 256×256 取得 1.57 FID,大幅超越同类 DiT/JiT 像素扩散;从 FLUX.2 klein 9B 微调出的像素文生图模型在 HPSv3、DPG-Bench、GenEval 上全面超越其潜空间基模,主观真实感显著提升
- 批判点评:rank-asymmetric 的视角直击像素扩散的本质瓶颈,无侵入式参数化是工程上的甜点;但低秩子空间的秩选择、与 FLUX.2 这种顶级模型的耦合是否过强,跨数据集泛化能力还需更大规模验证
2. Qwen-Image-VAE-2.0:高压缩 VAE 套件
Qwen-Image-VAE-2.0 Technical Report | Alibaba Qwen Team | arXiv:2605.13565
关键词:图像 VAE·高压缩·文本渲染·扩散兼容·视觉分词器
- 前序问题:高压缩比 VAE 在重建保真度和 diffusability 之间长期难以兼得——压得越狠下游 DiT 越难训,文本密集场景(文档、海报)的字符更是首当其冲糊掉
- 本文贡献:提出 Qwen-Image-VAE-2.0 高压缩 VAE 套件:架构上引入 Global Skip Connections 与扩展潜空间通道;训练上用十亿级图像 + 合成渲染引擎专项强化文本场景;潜空间用增强的语义对齐策略让其更适合扩散建模;编解码器采用非对称 + attention-free 主干降低编码开销
- 实验效果:在公开重建基准上达到 SOTA;提出 OmniDoc-TokenBench 文档专项评测,在高压缩比下兼顾通用与文本场景;下游 DiT 实验显示其 diffusability 显著优于现有高压缩基线,收敛速度明显加快
- 批判点评:把 VAE 当成一个独立产品来打磨——文档专项 benchmark + 文本渲染合成数据是务实的工程亮点;但相对其他高压缩 VAE 的提升幅度需要等论文公开数值后比较,「diffusability」的量化定义也仍偏经验
3. Edit-Compass:EditReward-Compass
Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling | 字节跳动 Doubao Team 等 | arXiv:2605.13062
关键词:图像编辑·Reward Model·多维评测·RL 对齐·Benchmark
- 前序问题:现有图像编辑 benchmark 难度不足、评测维度粗放,已无法区分前沿模型;与此同时图像编辑 RL 越来越依赖 reward model,但 reward model 评测仍停留在脱离实际 RL 场景的设定上,导致编辑模型与 reward model 都缺少可靠裁判
- 本文贡献:提出 Edit-Compass + EditReward-Compass 统一评测套件:前者含 2,388 条精标实例,覆盖世界知识推理、视觉推理、多图编辑等六级递进任务,采用结构化推理 + 细粒度 rubric 多维评分;后者含 2,251 对偏好对,模拟真实 RL 优化中的 reward 场景,让 reward model 评测首次贴合实战
- 实验效果:为前沿编辑模型提供了能拉开差距的多维难度梯度,配套的 reward model 评测能反映 RL 训练里 reward model 的真实表现,为后续编辑模型与 reward model 的迭代提供统一坐标系
- 批判点评:把「编辑能力」和「reward model 能力」两条评测线收编进同一套 benchmark 是踏实的基础工作;2,251 对偏好对的标注一致性、reward 评测对真实 RL 收益的预测力,是这类工作走向社区共识的关键门槛
4. Orthrus:双视图框架
Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion | Adobe Research, University of Oregon | arXiv:2605.12825
关键词:并行解码·扩散语言模型·KV Cache·推理加速·双视图
- 前序问题:自回归 LLM 生成保真度高但串行解码慢,扩散语言模型可并行却质量退化、训练贵、收敛缺乏严格保证——视觉/多模态 token 生成场景同样面临「快」与「准」难以兼得
- 本文贡献:提出 Orthrus 双视图框架:在冻结的 AR LLM 上挂载一个轻量可训练扩散并行视图,两视图共用同一份高保真 KV Cache——AR 头负责 prefill 构建准确表征,扩散头负责并行解码;通过两视图共识机制保证无损推理,把扩散并行解码移植到 Transformer 几乎零侵入
- 实验效果:在保证完全等价生成(lossless)的前提下,相比纯自回归提供最高 7.8x 加速,KV Cache 内存仅增加 O(1),参数增量极小;为视觉/多模态自回归 token 生成提供了直接可用的并行加速路线
- 批判点评:把扩散当成 AR 的「并行外设」而不是替代品,借共识机制保留 AR 保真度,工程上很优雅;但 7.8x 加速属于上限值,真实任务下并行步内的拒绝率与吞吐曲线值得进一步给出,扩散头训练成本也未充分披露
5. Beyond-GRPO:奖励分配原则
Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training | Meta | arXiv:2605.12483
关键词:LLM 后训练·GRPO·On-Policy 蒸馏·奖励密度·稀疏到稠密
- 前序问题:在「可验证标注极其稀缺」的后训练场景下,主流做法(在部署模型本身上跑 GRPO)忽视了一个奖励密度原则:稀疏的序列级奖励应该用在能产生有效探索的强模型上,而稠密的 token 级奖励才适合把行为压缩进小模型——这一直觉对生成模型的 RL 对齐同样关键
- 本文贡献:提出 Sparse-to-Dense 奖励分配原则:把宝贵的可验证数据先「上游」给强 teacher 跑 GRPO 做探索,再以稠密蒸馏的形式「下游」灌给小学生,最后在学生侧再补一段稀疏 RL;具体配方为 forward-KL warmup → OPD on-policy → 学生侧 GRPO 的三段桥
- 实验效果:在 Qwen3-1.7B 学生固定的前提下,先在 8B teacher 上 RL 再蒸馏,全面优于直接在学生上 GRPO;学生侧后续 GRPO 把 MATH 从 75.4% 提升到 78.5%,比 replay baseline 高 2.8 分,AIME 端点也最强
- 批判点评:「奖励密度」的视角让 GRPO 与 OPD 不再对立而成同一光谱的两端,对资源紧张团队的实践指导价值很高;但结论建立在数学这一可验证任务上,对图像/多模态生成等弱验证任务能否平移仍待验证
趋势观察
- 视频扩散从「少步」走向「任意步」 — AnyFlow 把蒸馏目标从端点一致性升级到任意区间的 flow map,叠加 on-policy 反向模拟,让一个学生模型在 1/4/16/32 步上都呈现良性 scaling——少步视频生成第一次有了真正的「test-time 预算自由度」
- 像素扩散借势潜空间预训练 — AsymFlow 用 rank-asymmetric 速度参数化把高维噪声预测限制在低秩子空间,并首次跑通了「FLUX.2 klein 9B 潜空间→像素空间」的微调路径——像素扩散与潜空间扩散开始走向「初始化共享、后期分化」的新协作方式
- VAE 不再是配角,而是产品 — Qwen-Image-VAE-2.0 把高压缩 VAE 当作独立产品打磨:Global Skip Connections + 扩展通道 + 文档专项 benchmark,承认了「VAE 决定 DiT 上限」的事实,VAE 进入「文本可读、扩散友好、推理便宜」的三维竞赛
- 编辑模型与 reward model 同台同尺 — Edit-Compass 把「图像编辑能力」和「reward model 能力」并入同一评测套件,并把 reward model 评测从脱节场景改造成贴合 RL 实战的偏好对——前沿编辑模型的 RL 对齐第一次有了配套的统一坐标系
- 稀疏-稠密奖励分配成为后训练新共识 — Beyond-GRPO 给出一条简单规则:稀缺可验证数据先在强 teacher 上做稀疏 RL,再以稠密蒸馏下沉到小学生,最后学生侧补稀疏 RL;这一原则同样适用于多模态生成模型的 reward 分配,正在成为下一代 alignment pipeline 的骨架
今日讨论
AnyFlow 实现了「首个任意步数视频扩散蒸馏框架——把 ODE 轨迹一次喂给学生」。你认为这种方法在实际项目中的落地价值有多大?欢迎在评论区分享你的看法!
人工智能炼丹君 整理 | 2026-05-14
更多 AIGC 论文解读,关注微信公众号「人工智能炼丹君」
每日更新 · 论文精选 · 深度解读 · 技术脉络
微信搜索 人工智能炼丹君 或扫描下方二维码关注

评论 (0)