首页
AIGC
常用链接
关于
Search
1
Pytorch DDP
2,463 阅读
2
Pytorch 常见问题
1,492 阅读
3
视频时序切分
1,300 阅读
4
中文场景下的CLIP图文预训练
1,016 阅读
5
2022年微信大数据比赛(多模态短视频分类)总结
1,004 阅读
默认分类
AIGC
分布式训练
多模态理解
阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
AIGC Daily Papers
Search
标签搜索
AIGC
论文速读
人工智能
ai
视频生成
DiT
蒸馏
多模态
attention
对齐
diffusion
图像生成
python
扩散模型
图像编辑
llm
视频编辑
lora
Meta
transformer
Jefxiong
累计撰写
68
篇文章
累计收到
8
条评论
首页
栏目
默认分类
AIGC
分布式训练
多模态理解
阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
AIGC Daily Papers
页面
常用链接
关于
搜索到
3
篇与
扩散模型
的结果
2026-05-21
AIGC 每日速读|2026-05-21|智能编辑成统一模型通用任务Uni-Edit
今日 AIGC 论文速览 今日共 13 篇 · 统一多模态与图像编辑 2 篇 · 视频生成与编辑 5 篇 · 高效推理与稀疏注意力 3 篇 · 安全与可控生成 2 篇 · 图像复原与评测 2 篇 重点论文标题列表 Uni-Edit:智能编辑成为统一模型唯一训练任务 FullFlow:只训LoRA把T2I升级成双向多模态 ⚡ DVG:时空联合自适应HunyuanVideo提速7倍 BA-Att:块预降采样稀疏注意力提速7倍 FlowLong:滑窗加流形约束推理期出长视频 今日论文速览 1. Uni-Edit:智能编辑成为统一模型唯一训练任务 Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning | CUHK MMLab | arXiv:2605.21487 关键词:UMM 统一多模态·智能图像编辑·通用任务·BAGEL·Janus-Pro ⚠️ 前序问题:统一多模态模型(UMM,理解+生成+编辑三件事一起做)当前主要靠混合多任务训练。但任务之间天生冲突,逼出了复杂的多阶段 pipeline、海量数据混合和各种平衡 trick——结果只是性能折中而非真正互相增强 本文贡献:提出 Uni-Edit:智能图像编辑作为 UMM tuning 的「第一个通用任务」。一个任务、一个训练阶段、一个数据集就能同时提升理解/生成/编辑三种能力。为此构建首个自动化可扩展智能编辑数据合成 pipeline:把多样 VQA 数据转化为带嵌入问题和嵌套逻辑的复杂编辑指令,得到 Uni-Edit-148k 数据集(reasoning-intensive 指令 + 高质量编辑图像) 实验效果:BAGEL 与 Janus-Pro 上仅用 Uni-Edit 单任务训练即获得三种能力的全面增强,无需任何辅助操作;模型/数据/代码已开源在 HuggingFace 和 GitHub 批判点评:「编辑作为通用任务」的洞察是范式级——编辑天生需要「理解 + 生成」两件事,这是其作为通用任务的根本理由;但 Uni-Edit-148k 是 VQA 数据合成的,复杂场景下指令质量上限仍受 VQA 数据集决定;BAGEL/Janus-Pro 之外能否泛化到更多 UMM(OmniGen/UniGen)需要后续验证 2. FullFlow:只训LoRA把T2I升级成双向多模态 FullFlow: Upgrading Text-to-Image Flow Matching Models for Bidirectional Vision-Language Generation | ETH Zürich, Google Zurich | arXiv:2605.20316 关键词:统一多模态·LoRA 升级·Rectified Flow·双向生成·参数高效 ⚠️ 前序问题:现代 T2I 扩散模型有强视觉先验,但只暴露在单向 text→image 生成。从 T2I 衍生的统一视觉语言模型要么靠大规模联合预训练,要么大幅重训文本通路——两者都浪费了 T2I backbone 已经学到的强图像先验 本文贡献:提出 FullFlow 参数高效配方:只训 LoRA 适配器和轻量 text head 就把预训练的 rectified-flow T2I 模型升级成双向 vision-language 生成器。图像保持原生连续 flow,文本走离散 insertion 过程;图像/文本独立 timestep 让推理变成「二维生成空间」中的轨迹选择,单 backbone 同时支持 text→image / image→text / 联合采样 / partial-text 预测 实验效果:在 SD3 上同等可训参数和 LoRA rank 下,T2I FID 62.7 → 31.6,I2T CIDEr 2.0 → 99.4(远超之前 SOTA Dual Diffusion);峰值 VRAM 从 ~84GB 降到 ~38GB,吞吐 8×(双 RTX A5000 训 24h,仅训 ~5% backbone 参数);同样配方迁移到 FLUX.1-dev 并支持 partial-text 做下游 VQA 批判点评:5% 参数开销实现双向多模态是非常高 ROI 的工程贡献——把扩散视觉先验「升级 vs 重建」拉到了正确选择;但 image→text CIDEr 99.4 vs Dual Diffusion 2.0 的对比量级悬殊,可能反映 baseline 设置问题;与原生统一模型(BAGEL/Janus)的端到端能力对比缺失 3. DVG:时空联合自适应HunyuanVideo提速7倍 Dynamic Video Generation: Shaping Video Generation Across Time and Space | 上海交大, 华南理工, 清华大学 | arXiv:2605.21042 关键词:视频扩散加速·时空联合·渐进分辨率·HunyuanVideo·近无损 ⚠️ 前序问题:视频扩散每步要处理大量 token,迭代去噪极昂贵。最近渐进分辨率采样在早期阶段降 latent 分辨率取得加速,但 scale 到视频上仍困难——时序维度引入跨视频差异巨大的时空需求,只压一个维度要么加速有限要么质量退化 本文贡献:提出 DVG(Dynamic Video Generation)框架:跨时间和空间联合分配计算,自动选择内容感知(content-aware)的加速策略,无需手工调参或重训。通过学习每个视频的最佳时空降采样模式,实现近无损加速 实验效果:HunyuanVideo / HunyuanVideo-1.5 上达到 7× 加速;与蒸馏组合可达 18× 加速;近无损跨模型跨任务,可作为大规模高效视频生成系统的关键组件——代码开源 批判点评:把渐进分辨率从空间扩到时空联合是合理的下一步,自动 content-aware 策略避免了手工 schedule;但加速倍数高度依赖底模容量与内容多样性,对极端运动场景的 robustness 论文未充分披露;7×→18× 的复合是否保留各自的画质底线需更细粒度评测 4. BA-Att:块预降采样稀疏注意力提速7倍 Efficient Long-Context Modeling in Diffusion Language Models via Block Approximate Sparse Attention | 香港科大, 港大, 浙大, 港中文 | arXiv:2605.19726 关键词:扩散语言模型·稀疏注意力·块降采样·FlashAttention·长上下文 ⚠️ 前序问题:扩散语言模型(DLM)能做全局连贯、双向、可控文本生成,但 scale 到超长序列仍昂贵。现有 block-sparse attention 用固定采样模式(尾部、反斜对角条带)选块——这种 prior-driven 采样会漏关键 token、分布偏移下不稳定 本文贡献:提出 BA-Att 框架:block-wise 预降采样操作在压缩空间识别 informative 区域,避免依赖脆弱的位置先验。理论上定义 oracle post-downsample attention map,形式化前 vs 后降采样方案的近似误差;引入轻量 norm-sorting 模块和协方差补偿修正(用对角 QK 方差近似完整协方差),降复杂度 实验效果:比 FlashAttention 加速最高 6.95×;50% 稀疏度下保持接近 full-attention 性能,跨语言模型/多模态语言模型/视频生成模型一致——证明高效率和强泛化 批判点评:把 sparse attention 的「选块」从 prior-based 升级到 learned downsampled space 是非常正确的方向,6.95× 加速比 FlashAttention 还快是亮眼的工程数字;但 50% 稀疏率下「接近 full」的具体差距需更精细评测;对极长上下文(1M+)的渐近行为仅理论保证而无实测 5. FlowLong:滑窗加流形约束推理期出长视频 FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching | KAIST, Amazon | arXiv:2605.20910 关键词:长视频生成·推理期方法·Tweedie matching·滑窗·流形约束 ⚠️ 前序问题:把视频扩散模型生成时长扩到长序列一直没解决:双向模型扩展紧绑架构且长距退化严重,自回归模型有 exposure bias 累积漂移并产生重复运动。现有 training-free 方案没有同时跨这两条路线 本文贡献:提出 architecture-agnostic 推理期长视频生成方法:滑动重叠窗口生成长视频,相邻窗口预测的 clean sample 通过 Tweedie matching 在重叠区强制流形约束 + 时序一致;high-noise 阶段用 stochastic early-phase sampling,每次 Tweedie matching 校正后注入新噪声同步窗口轨迹,再切到 deterministic ODE sampling 保留细节 实验效果:可生成数倍于原生窗口长度的视频,时序一致性和视觉质量超越 training-free 与自回归两类基线;同一思路无微调即可扩展到音视频联合生成、文生 3DGS——证明这套方法是通用的 批判点评:Tweedie matching 在窗口边界做修正是 elegant 的解法,几乎是「无需训练」的最简扩展;但滑窗推理时延比单 pass 显著增加,长视频对内存的累积压力不算小;与原生因果模型(如 Causal Forcing++/Mutual Forcing)相比,缺少同等长度下的直接对比 6. StreamGVE:少步流式生成做训练免视频编辑 StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation | UBC ECE | arXiv:2605.21466 关键词:视频编辑·训练免微调·少步流式生成·noise-to-data·双分支 ⚠️ 前序问题:视频编辑方法可行但要花很多昂贵迭代且编辑结果质量勉强。作者把症结归因到「data-to-data」范式——它和现代生成模型(noise-to-data)天生不兼容,绕远路反而拉低了编辑质量 本文贡献:从 noise-to-data 视角重做视频编辑:基于预训练的流式生成模型构建 StreamGVE,保留 few-step 采样并无缝注入源视频条件;引入双分支快速采样(self-attention bridge + cross-attention grounding/boosting)兼顾采样和条件;提出 source-oriented guidance 提目标质量,再加 visual prompting 增强编辑灵活性 实验效果:在多种视频编辑任务上一致超越现有方法,即使在 few-step 设置下也能以最少时间代价完成;方法对不同底模具有鲁棒性和泛化能力 批判点评:把视频编辑「从 data-to-data 转向 noise-to-data」是个范式级洞察,能直接复用流式生成模型的少步能力——很省工;但在风格迁移、物体替换等具体编辑任务上的优势是否一致需要更细分对比;source-oriented guidance 的强度调参成本未明 7. FlowErase-RL:首个GRPO范式的概念擦除框架 FlowErase-RL: Rethinking Concept Erasure as Reward Optimization in Flow Matching Models | 哈工大深圳, 清华深圳, 吉林大学, 鹏城实验室, 清华大学 | arXiv:2605.19739 关键词:Flow Matching·概念擦除·GRPO·安全生成·双路径奖励 ⚠️ 前序问题:Flow Matching 文生图模型质量飞涨同时安全风险也在加剧,要擦除有害/不想要的概念。现有方案要么是推理期干预(效果有限),要么靠 SFT(依赖精对齐数据 + 多概念扩展性差)——擦除问题一直缺少更优范式 本文贡献:首次把概念擦除重新表述为 reward optimization 问题,提出基于 GRPO 的 FlowErase-RL:(1) 双路径动态奖励——CE(Concept Erasure)奖励抑制目标概念,NS(Non-target Space)奖励保住生成质量;(2) 性能驱动的自适应切换策略,无需显式监督就能稳定训练;通用支持裸露/物体/艺术风格三类擦除 实验效果:裸露/物体/艺术风格三类擦除均达 SOTA,图像质量与语义对齐保持很好;对抗攻击鲁棒性强,多概念场景扩展性好——开辟了 Flow Matching 安全可控生成的新范式 批判点评:把擦除从 SFT 转向 RL 是聪明的——擦除本质是分布偏移而非分类,RL 的奖励更贴合;但 GRPO 训练成本不低,CE/NS 双奖励的权重边界对效果影响多大未深入消融;擦除概念之间的相互干扰(擦了概念 A 影响概念 B 的生成)这一长尾问题未充分讨论 8. CPC-VAR:首次给VAR模型做持续多概念个性化 CPC-VAR: Continual Personalized and Compositional Generation in Visual Autoregressive Models | 哈工大深圳, 清华深圳国际研究生院, 鹏城实验室, 华南理工 | arXiv:2605.19750 关键词:持续学习·VAR 个性化·概念神经元·多概念合成·解纠缠 ⚠️ 前序问题:Visual Autoregressive(VAR)做文生图效率高,但现有 VAR 个性化只能静态训单概念——序列学新概念时旧概念会被灾难性遗忘,多概念合成又会出现特征纠缠和属性不一致。这是 VAR 个性化生成的两个老大难 本文贡献:首次系统研究 VAR 持续个性化生成,提出统一框架。两个核心组件:(1) GCNS(Gradient-based Concept Neuron Selection),找到每个概念相关的神经元,只约束跨任务冲突参数,不扩展模型也能抗遗忘;(2) 上下文感知组合策略:多分支特征建模 + 空间条件引导的局部 cross-attention 融合,做精确解纠缠的多概念合成 实验效果:长序列持续个性化场景下显著领先现有 baseline,多概念图像合成上也优于现有方法,证明 VAR 完全有能力做可扩展可控的个性化生成 批判点评:VAR 个性化第一次被系统化研究是好事,神经元级别的 GCNS 设计也比经典扩散模型路线(DreamBooth/LoRA)更经济;但实验是否覆盖到 10+ 概念的真实长尾、跨概念组合的失败模式分析略浅,VAR 底模本身的天花板(vs 扩散模型)没有正面比较 9. DyMoS:一个标量旋钮控 I2V 运动幅度 Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models | 延世大学 Yonsei, GIST, Adobe Research | arXiv:2605.19398 关键词:I2V·运动控制·注意力 rebalance·训练免微调·DyMoS ⚠️ 前序问题:I2V(image-to-video)相比 T2V 生成的视频普遍过于静态。前人方案靠削弱或修改图像条件来增加运动,但要么需要额外训练,要么牺牲了对参考图像的保真度——「动起来 vs 像参考图」是个长期 tradeoff 本文贡献:识别出「reference-frame dominance」是动作抑制的核心机制:非参考帧对参考帧 key token 分配过多 self-attention,导致参考信息被过度跨时传播、压制了帧间动态。提出 DyMoS(Dynamic Motion Slider):训练免微调、模型无关,初始去噪步 rebalance 生成帧到参考帧的注意力路径,输入图和模型权重都不动,只引入一个标量参数连续控制运动强度 实验效果:多个 SOTA I2V backbone 上一致提升运动动态,同时保持视觉质量和对参考图的保真度;提供 user 一个可调的运动旋钮 批判点评:把「动起来 vs 像参考图」从冲突变成可调旋钮是非常实用的工程贡献;但 attention rebalance 的具体公式对不同架构可能需重新调,论文给出的 generality 主要在 SD 系列底模;标量旋钮是否能控制不同方向的运动(横向 vs 纵向)需要更细粒度评测 10. MSAVBench:首个多镜头音视频生成评测基准 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation | 复旦大学, 港大, 阿里通义实验室, 浙大, 北大 | arXiv:2605.20183 关键词:多镜头音视频·评测基准·导演级控制·自适应分镜·MSAVBench ⚠️ 前序问题:视频生成正从单镜头扩展到复杂多镜头音视频(MSAV)叙事,但评测仍是基础性挑战——现有 benchmark 范围有限、数据多样性不足、评测流水线僵化,无法系统可靠地评估现代 MSAV 模型 本文贡献:推出 MSAVBench 首个面向多镜头音视频生成的综合评测基准 + 自适应混合评测框架。覆盖视频/音频/镜头/参考四个维度,多种任务设置,最多 15 个镜头,挑战性的非真实场景。评测框架的鲁棒性来自三件事:分镜分割的自适应 self-correction、主观指标的实例级 rubric、复杂判断的工具溯源证据抽取 实验效果:与人类判断的 Spearman 秩相关达 91.5%,对齐度极高;系统评测 19 个 SOTA 闭源/开源模型显示:当前系统在导演级控制和细粒度音视频同步上仍有困难,模块化/agentic 生成 pipeline 是缩小开源-闭源差距的有前途路径;benchmark 数据和评测代码将开源 批判点评:把音视频生成评测从「单镜头质量」推进到「多镜头叙事 + 导演级控制」是必要的下一步;91.5% Spearman 与人类对齐很高,自适应分镜 self-correction 是工程亮点;但 15 个镜头作为基准上限对真正的长视频(>5 分钟、几十个镜头)覆盖度有限;非真实场景的标注成本与一致性如何控制仍是开放问题 11. CogOmniControl:专用CogVLM认知创意意图引导生成 CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition | 澳门大学 SKL-IOTSC, 腾讯 Online-Video BU | arXiv:2605.19995 关键词:可控视频生成·专业 VLM·创意意图认知·闭环 harness·in-context ⚠️ 前序问题:视频扩散模型对 abstract / 稀疏 / 复杂条件依然脆弱——专业制作工作流(分镜草图、黏土渲染等)下表现差。现有方案要么用 adapter 注入条件,要么把通用 VLM 耦合到扩散 backbone——能力鸿沟仍在,难以输出对齐用户创意意图的视频 本文贡献:提出 CogOmniControl 推理驱动框架:把可控视频生成因式分解为「创意意图认知」+「生成」。专门用真实动漫制作数据训了一个专业版 CogVLM,比通用 VLM 更准确地从稀疏抽象条件中识别用户创意意图,转译成密集 reasoning 输出;CogOmniDiT 通过 in-context generation 统一多种条件,并用 RL 对齐到 CogVLM reasoning 输出。进一步利用 CogVLM 做评测与 Best-of-N 选择,整个框架是闭环 harness 架构。同时发布 CogReasonBench / CogControlBench 来自专业工作流的真实创意意图数据 实验效果:两个 benchmark 上一致超越现有开源模型,在分镜草图、黏土渲染等专业条件下尤其明显——证明专业 VLM 介入的认知能力对可控生成是有效的 批判点评:专业 VLM 当「创意意图认知器」是个新颖思路,引入 reasoning 缓解条件稀疏问题——但训练专业版 VLM 的数据规模有限,跨垂直域(动漫→真人/工业)泛化未验证;闭环 harness 架构推理时延偏高,落地工业流水线存在挑战 12. DiSI:单模型连续滑动失真感知权衡 Disentangling Generation and Regression in Stochastic Interpolants for Controllable Image Restoration | 同济大学, 复旦大学 | arXiv:2605.21381 关键词:图像复原·Stochastic Interpolant·生成-回归解耦·失真感知权衡·像素空间 ⚠️ 前序问题:图像复原(IR)领域生成式(Diffusion/Flow Matching)擅长合成真实纹理但慢且像素保真度差;经典回归式方法单步高效像素准确——两条路线长期不能兼得 本文贡献:提出 DiSI 统一框架:把底层 Stochastic Interpolant 过程显式解耦为独立的生成分量和回归分量。这种解耦让模型在「纯回归 → 全生成」之间连续可控过渡。技术上提供两条具体采样轨迹和统一 sampler 支持任意轨迹的少步推理;网络是像素空间的双分支 U-Net 风格 transformer(专用分支增强条件引导同时保高吞吐) 实验效果:在多种 IR 任务上以高效率取得有竞争力的结果;独有特性:单一模型推理期就能控制失真-感知 tradeoff(distortion-perception trade-off),不再需要训多个模型 批判点评:把 SI 过程拆成生成+回归两个可独立调用的分量,在理论上很优雅,给「失真-感知」连续控制提供了第一种统一手段;但实际 IR 任务中如何选择最佳轨迹(用户需指定 tradeoff?)的 UI/控制接口论文未深入讨论;与最新 OSEDiff/PASD 等方法的端到端对比有所欠缺 13. ABSS:初始几步注意力筛 seed 提画质 Boosting Text-to-Image Diffusion Models via Core Token Attention-Based Seed Selection | Brandeis University | arXiv:2605.19532 关键词:文生图·Seed Selection·Cross-Attention·训练免微调·SD ⚠️ 前序问题:文生图扩散模型的输出对随机 seed 极度敏感——不同 seed 同 prompt 画质和文图对齐差异巨大。但「该用哪个 seed」一直靠盲选,缺乏系统的预选机制 本文贡献:观察到一个关键现象:在前几步去噪过程中,对 prompt 中 core token(content-bearing words)的 cross-attention dynamic 强烈预测最终生成质量。基于此提出 ABSS(Attention-Based Seed Selection),训练免微调即插即用:候选 seed 跑前几步,用对 core token 的 cross-attention 打分排序,只保留 top-k 完成完整生成,不需要固定阈值 实验效果:三个 benchmark 上 Stable Diffusion 各变体的文图对齐和视觉质量一致提升,人工偏好与对齐指标都有改善;可作为现有 seed 优化 pipeline 的轻量预选附加组件叠加额外收益 批判点评:很经济的工程发现:把 seed 筛选问题转换为前几步 attention 信号读取,几乎没有计算开销;但这种基于 attention 的代理指标在跨架构(DiT/MMDiT)的可迁移性需要进一步验证;core token 的提取依赖 prompt parsing 的鲁棒性 趋势观察 「编辑」开始成为统一多模态模型的核心训练任务 — Uni-Edit 把智能编辑提为 UMM 单一通用训练任务,BAGEL/Janus-Pro 上一个数据集就能同时提理解/生成/编辑——「编辑作为通用任务」的认知正在替代「混合多任务训练」的范式。FullFlow 用同样的精简思路(只训 5% 参数)把 T2I 升级成双向多模态,从「重训」走向「升级」 视频生成加速进入「时空联合 + 稀疏注意力」阶段 — DVG 把渐进分辨率从单空间扩到时空联合,HunyuanVideo 上 7× 加速 + 蒸馏达 18×;BA-Att 用块预降采样稀疏注意力比 FlashAttention 还快 6.95×。视频扩散下一阶段的加速重心从单维度优化转向「时空 + 稀疏」组合拳 长视频生成从训练扩展走向「推理期方法」 — FlowLong 用 Tweedie matching 滑窗 training-free 把视频时长扩到数倍——这条 inference-time 路线和 Mutual Forcing/Causal Forcing++ 的训练侧路线形成互补,意味着长视频不一定要重新训模型 I2V 运动控制和文生图 seed 选择都被「单一标量旋钮 + Attention 信号」攻破 — DyMoS 用一个标量参数控 I2V 运动幅度(attention rebalance);ABSS 用初始几步 cross-attention 信号筛 seed——共同点是把「需要训练才能解决」的问题,转化为「读取已有 attention 信号」的免训练方案 概念擦除从 SFT 范式跨入 RL 范式 — FlowErase-RL 首次用 GRPO 做 Flow Matching 概念擦除,CE+NS 双路径动态奖励替代精对齐 SFT 数据——证明在 Flow Matching 时代,「擦除」本质上更适合用 RL 的分布偏移视角而非分类监督视角 人工智能炼丹君 整理 | 2026-05-21
2026年05月21日
6 阅读
0 评论
0 点赞
2026-05-16
AIGC 周末专题|2026-05-17|实时自回归视频生成加速
AIGC 周末专题深度解读:实时自回归视频生成:从蒸馏加速到流式交互的范式突破 人工智能炼丹君 整理 | 2026年5月17日(周日) 覆盖时间:2026-05-11 ~ 2026-05-16 本期概述 本期 AIGC 周末专题聚焦实时自回归视频生成:从蒸馏加速到流式交互的范式突破方向,精选 8 篇代表性论文进行深度解读。 方向分布: 自回归蒸馏加速 4 篇 (Causal Forcing++, AnyFlow, RAVEN, CDM) 流式推理与 KV Cache 优化 3 篇 (Forcing-KV, SWIFT, HSA) 世界模型与多镜头叙事 2 篇 (SANA-WM, CausalCine) 含 NVIDIA/MIT 联合 × 2 技术路线与时间线 基础蒸馏时代(2022.06 — 2024.06) 描述:Progressive Distillation 开创渐进蒸馏路线,Consistency Models 提出端点一致性映射,少步生成从理论走向实践。 关键节点: 2022.06:Progressive Distillation:渐进蒸馏开山作 2023.03:Consistency Models:一步生成理论突破 2023.12:DMD/DMD2:分布匹配蒸馏 2024.06:SD-Turbo/SDXL-Turbo:1-4 步商用 因果 AR 蒸馏兴起(2024.06 — 2025.12) 描述:Self Forcing 开创 AR 视频蒸馏范式,Causal Forcing 将 chunk-wise 4 步推向可用,流式视频生成原型出现。 关键节点: 2024.09:Self Forcing:AR 视频蒸馏开创 2025.02:Causal Forcing:chunk-wise 4 步实用 2025.06:Genie3:action-conditioned 世界模型 2025.12:LongLive:长视频流式生成 实时化爆发期(2026.01 — 2026.05) 描述:Frame-wise 蒸馏、KV Cache 压缩、无训练加速三线并进,实时交互式视频生成从实验室走向产品。 关键节点: 2026.03:CDM:连续时间分布匹配突破离散瓶颈 2026.05:Causal Forcing++:frame-wise 2 步实时 2026.05:AnyFlow:Flow Map 恢复步数可扩展性 2026.05:Forcing-KV/SWIFT:单卡 20-29 FPS 世界模型与叙事融合(2026.03 — 未来) 描述:实时 AR 视频生成与世界模型、多镜头叙事融合,从'生成画面'走向'仿真世界'。 关键节点: 2026.05:SANA-WM:消费级 GPU 分钟级世界模型 2026.05:CausalCine:多镜头叙事 AR 生成 未来:实时世界仿真 + 用户交互式导演 1. Causal Forcing++:因果一致性蒸馏实现 Frame-wise 2 步实时视频生成:清华 TSAIL 将因果 AR 蒸馏从 chunk-wise 4 步推进到 frame-wise 2 步,首帧延迟降低 50% 论文: Causal Forcing++:因果一致性蒸馏实现 Frame-wise 2 步实时视频生成 arXiv: 2605.15141 机构: Tsinghua TSAIL, 生数科技 (Shengshu) 1.1 研究动机 核心问题: Frame-wise AR 蒸馏的初始化策略与少步目标错位 实时交互式视频生成需要低延迟、流式、可控的 rollout。Causal Forcing 等先驱已经证明 chunk-wise 4 步蒸馏的可行性,但 chunk 粒度过粗——每生成 16 帧需 4 步 DiT forward pass,首帧延迟仍以秒计。如果能做到 frame-wise 1-2 步,每帧只需 1-2 次 forward pass,延迟可再降一个量级。问题是:现有蒸馏初始化策略要么目标错位、要么不能少步生成、要么算力大到无法 scale。 前序工作及局限: Causal Forcing:Chunk-wise 4 步成功但延迟仍高 Consistency Models:提供一致性蒸馏理论基础 与前序工作的本质区别: Causal CD 只需一次教师 ODE 步在线监督,三阶段初始化解决冷启动 1.2 方法原理 Causal Forcing++ 解决的核心问题是:如何在 frame-wise 粒度做高效的因果 AR 蒸馏?关键观察:Causal Consistency Distillation 学的流图与 Causal ODE 蒸馏完全等价,但训练信号更简洁——只需教师模型做一步 ODE 更新,学生学习匹配该更新结果。这避免了传统蒸馏需要预计算完整 PF-ODE 轨迹的巨大开销。 三阶段初始化解决冷启动:(1) 双向扩散预训练让模型学习高质量生成能力;(2) 因果适配将双向注意力切换为因果 mask,保持生成质量同时获得 AR 属性;(3) 少步蒸馏在上述基础上训练 frame-wise 1-2 步推理。 进一步将流水线扩展到 Genie3 风格 action-conditioned 世界模型,用相同 Causal CD 范式蒸馏交互式世界模型,支持动态 action 实时驱动。 1.3 核心创新 提出 Causal CD(因果一致性蒸馏)流水线:核心观察是 Causal CD 学习与 Causal ODE 蒸馏相同的 AR 条件流图,但只需在相邻时间步之间用一次教师 ODE 步在线提供监督,无需预计算完整 PF-ODE 轨迹——既高效又易优化。三阶段初始化策略彻底解决 frame-wise 蒸馏的冷启动问题。 1.4 实验结果 在 frame-wise 2 步设定下,全面超越 SOTA 4 步 chunk-wise Causal Forcing:VBench Total +0.1、VBench Quality +0.3、VisionReward +0.335。首帧延迟降低 50%。Stage 2 训练成本降至约 1/4。扩展到世界模型同样有效。 1.5 关键洞察 [{'point': '教师 ODE 误差放大', 'detail': '1-2 步生成使教师单步 ODE 的离散化误差直接影响学生最终输出,误差没有后续步骤修正的机会'}, {'point': '世界模型场景的 action 复杂度', 'detail': '在简单 action 下表现优秀,但面对复杂多步交互指令时的稳定性需要更多压力测试'}, {'point': '未开源', 'detail': '论文来自产业实验室,复现需等待官方代码公开'}] 技术演进定位: Frame-wise 因果 AR 蒸馏的实时交互级方案 可能的后续方向: Frame-wise 1 步 端到端无分阶段初始化 2. AnyFlow:任意步数视频蒸馏的 Flow Map 统一框架:NUS Show Lab + MIT + NVIDIA 首次基于 Flow Map 实现 4→32 步性能单调提升 论文: AnyFlow:任意步数视频蒸馏的 Flow Map 统一框架 arXiv: 2605.13724 机构: National University of Singapore Show Lab, MIT, NVIDIA 2.1 研究动机 核心问题: Consistency Distillation 步数增加时性能退化 过去一年的少步视频生成被一致性蒸馏(Consistency Distillation)统治——4-8 步即可出图。但一个致命问题:把步数从 4 加到 16/32,画质反而崩溃。为什么?CD 用一致性轨迹替换了原始 PF-ODE 轨迹,破坏了 ODE 采样在测试时的可扩展行为。用户需要'任意步数'推理的灵活性——算力充裕时多步出精品,紧急场景少步求速度——但 CD 做不到。 前序工作及局限: Consistency Models:端点映射 z_t→z_0 破坏 ODE 语义 Shortcut Models:任意区间跳跃但未系统化 与前序工作的本质区别: Flow Map z_t→z_r 目标 + FMBS on-policy 训练恢复步数可扩展性 2.2 方法原理 AnyFlow 的核心洞察:一致性蒸馏学的是 z_t→z_0 的端点映射,这迫使模型'一步到位'——当允许多步时,中间状态没有明确的 ODE 语义,因此步数越多反而越混乱。 Flow Map 解决方案:不学端点映射,而是学任意时间区间 [t, r] 的流图过渡 z_t→z_r。当 r=0 退化为一步生成,当 r>0 退化为多步 ODE 采样的某一段——自然统一了少步和多步。 FMBS 训练方法:传统蒸馏是 off-policy 的——用教师 ODE 生成配对 (z_t, z_r)。AnyFlow 提出 on-policy 方法:让学生自身做 Euler rollout,在 rollout 路径上反向模拟真实的流图过渡,用于训练。这解决了视频域因果生成的 exposure bias 问题。 在双向 DiT(Open-Sora Plan)和因果 AR(CausalVAR)两类骨干、1.3B 到 14B 全规模区间验证。 2.3 核心创新 提出 AnyFlow——首个基于 flow map 的任意步数视频扩散蒸馏框架。核心突破:(1) 将蒸馏目标从端点一致性 z_t→z_0 升级为流图过渡 z_t→z_r(任意时间区间),让学生学会任意区间跳跃;(2) Flow Map Backward Simulation (FMBS) 把完整 Euler rollout 拆为多段 shortcut,用 on-policy rollout 替代 off-policy 配对蒸馏。 2.4 实验结果 在双向和因果两类视频扩散骨干上一致达到或超越 consistency baseline。关键突破:步数从 4 提升到 16/32 时性能不再退化、反而单调上升,重新恢复了 ODE 采样的 test-time scaling 优势。在 14B 模型上同样有效。 2.5 关键洞察 [{'point': '复现门槛高', 'detail': '需要 1B-14B 级别教师模型 + 大规模 on-policy rollout,数据与算力两端门槛都不低'}, {'point': '具体数值缺失', 'detail': '论文未公开 VBench/UCF-FVD 等标准 benchmark 的绝对数值,难以与其他方法直接对比'}, {'point': '训练效率', 'detail': 'On-policy rollout 的训练时间和显存开销与 off-policy CD 的对比数据不够充分'}] 技术演进定位: 首次理论解释 CD 多步退化并给出 flow map 解决方案 可能的后续方向: 自适应步数调度 Flow Map + RL 结合 3. RAVEN:训练-测试对齐的实时自回归视频外推:帝国理工 AGI Lab 提出 CM-GRPO 在一致性核上直接做 RL 论文: RAVEN:训练-测试对齐的实时自回归视频外推 arXiv: 2605.15190 机构: Imperial College London AGI Lab 3.1 研究动机 核心问题: 因果视频蒸馏训练用真实 history、推理用自身 rollout 的分布 gap 因果自回归视频扩散模型通过蒸馏高保真双向教师已能实现少步推理。但一个根本性问题一直被忽视:训练时用真实 history(来自数据集)作为条件,推理时却用模型自身 rollout 的结果作为 history——两者分布不同。随着 rollout 长度增加,这个训练-测试分布 gap 会累积放大,导致长序列生成质量严重退化。 前序工作及局限: Self Forcing:self-rollout 训练但未系统性解决对齐 GRPO:RL 对齐但在扩散模型上公式复杂 与前序工作的本质区别: RAVEN rollout 重打包 + CM-GRPO 在一致性核上做 RL 3.2 方法原理 RAVEN 解决的核心问题是训练-测试分布不对齐。具体做法:训练时不再只用真实数据作为 history 条件,而是让模型先做一段 rollout 生成'假 history',然后把这个 rollout 的干净端点重新打包为条件输入,让模型在自身 rollout 分布上继续学习。这样训练时看到的 history 分布就与推理时一致。 CM-GRPO 的创新在于简化了 RL 在生成模型上的应用。传统 flow-model RL 需要构造 Euler-Maruyama 辅助过程来定义 policy gradient,复杂且不稳定。CM-GRPO 的观察:consistency model 的每步采样本质上是条件高斯转移 p(z_{t-1}|z_t) = N(μ(z_t), σ²I),可以直接在这个高斯核上定义 log-probability 并做 GRPO——公式简洁、梯度稳定。 两者组合:RAVEN 让模型在正确分布上训练,CM-GRPO 让模型朝奖励方向优化。 3.3 核心创新 提出 RAVEN training-time test 框架:把每次自身 rollout 重打包为(干净历史端点 + 噪声去噪状态)交错序列,让训练注意力对齐推理时的外推方式。进一步提出 CM-GRPO:把 consistency 采样步重新表达为条件高斯转移,直接在该核上做在线 RL,避免了 flow-model RL 中 Euler-Maruyama 辅助过程的复杂性。 3.4 实验结果 RAVEN 在质量、语义、动态度多维评测上超越近期因果视频蒸馏 baseline。CM-GRPO 与 RAVEN 组合后进一步提升性能。训练-测试对齐效果在长序列(>100 帧)上尤为显著。 3.5 关键洞察 [{'point': '内存开销', 'detail': 'RAVEN 重打包需要额外存储 rollout 结果,对长序列的内存占用影响未充分量化'}, {'point': '奖励设计敏感性', 'detail': 'CM-GRPO 的效果强依赖于奖励函数设计,在更复杂/多维奖励场景下的稳定性有待验证'}, {'point': '模型规模验证', 'detail': '在更大模型尺度(>5B)上是否同样有效需要进一步实验'}] 技术演进定位: 系统性解决因果视频蒸馏训练-测试对齐的首个完整方案 可能的后续方向: 多奖励 CM-GRPO 自适应 rollout 长度 4. Forcing-KV:注意力头特化驱动的 KV Cache 混合压缩:NVIDIA/MIT/ETH 联合发现注意力头功能特化规律,单卡 H200 达 29+ FPS 论文: Forcing-KV:注意力头特化驱动的 KV Cache 混合压缩 arXiv: 2605.09681 机构: NVIDIA, MIT, ETH Zurich, ZJU 4.1 研究动机 核心问题: AR 视频扩散历史帧 KV Cache 线性膨胀导致显存爆炸 自回归视频扩散模型(如 Self Forcing)通过流式生成实现了开放式长视频合成。但致命瓶颈来了:随着生成帧数增加,历史帧的 KV Cache 线性膨胀——注意力复杂度爆炸 + 显存不够用。一段 30 秒的 1080P 视频,KV Cache 就能吃掉整张 H100 的 80GB 显存。如果不压缩 KV Cache,流式视频生成就永远停留在几秒级别。 前序工作及局限: Flash Attention:算法层面加速但不压缩缓存 Token Merging:图像域 token 压缩 与前序工作的本质区别: 发现注意力头功能特化并据此设计静态/动态混合压缩 4.2 方法原理 Forcing-KV 的核心发现:在自回归视频扩散模型中,不同注意力头承担完全不同的功能角色,这种分工是稳定且可预测的。 静态头特征:注意力分布集中在远程 token(历史帧的关键区域),负责跨 chunk 的语义连续性和帧内的结构保真。这些头对'哪些远程 token 重要'的判断高度一致,因此可以做结构化剪枝——只保留少数高注意力权重的远程 token。 动态头特征:注意力集中在近邻 token(前几帧),负责帧间运动预测和局部一致性。近邻帧之间往往高度相似,因此可以做相似度驱动的动态剪枝——当相邻片段的 KV 向量相似度超过阈值时合并。 工程实现:KV-cache 同步机制确保压缩后的 cache 在多 head 之间保持一致的时间索引;缓存 Euler 更新将已压缩 token 的 denoising 中间状态缓存起来避免重复计算。 4.3 核心创新 首次发现视频扩散模型中注意力头具有稳定的功能特化:静态头(Static Heads)负责跨 chunk 过渡和帧内保真,关注远程 token;动态头(Dynamic Heads)负责帧间运动与一致性,关注近邻 token。基于此设计混合压缩:对静态头执行结构化剪枝(保留远程关键 token),对动态头执行基于片段相似度的动态剪枝(移除冗余近邻)。 4.4 实验结果 在 LongLive 和 Self Forcing 两个 AR 视频扩散模型上验证。480P 场景:1.35x/1.50x 加速。1080P 场景:加速比达 2.82x。单卡 H200 达到 29+ FPS 并减少 30% cache 显存。无需离线 profiling,运行时自动判断头类型。 4.5 关键洞察 [{'point': '架构通用性', 'detail': '仅在两个 AR 视频扩散模型上验证,是否推广到非 AR 架构(如 CogVideoX)有待检验'}, {'point': '头分类稳定性', 'detail': '静态/动态头的划分是否在新架构或不同训练阶段仍然成立存疑'}, {'point': '质量退化分析', 'detail': '在极端压缩比下(如 80%+ 裁剪)的视觉质量退化模式需要更多系统性分析'}] 技术演进定位: 首次揭示视频扩散注意力头分工并实现实时 29 FPS 可能的后续方向: 自适应头分类 hierarchical cache 5. SWIFT:无训练语义自适应记忆实现高效流式长视频:中科大/复旦/Georgia Tech 提出逐头语义注入,单卡 H100 达 22.6 FPS 论文: SWIFT:无训练语义自适应记忆实现高效流式长视频 arXiv: 2605.09442 机构: University of Science and Technology of China, Fudan University, Georgia Institute of Technology 5.1 研究动机 核心问题: 流式长视频 prompt 切换时 KV Cache 管理困难 流式长视频生成的核心挑战之一是语义切换——当 prompt 变化时(例如从'人走路'切换到'人跑步'),模型需要在保持视觉连贯性的同时响应新语义。现有方法在 prompt 边界处要么重建整个 KV Cache(慢),要么固定缓存大小无法适配语义变化(质量差)。 前序工作及局限: StreamingT2V:滑动窗口但无语义感知 ControlNet/P2P:注入控制但非流式 与前序工作的本质区别: 无训练语义注入代替缓存重建,逐头梯度化更新 5.2 方法原理 SWIFT 解决的问题:流式视频生成中 prompt 切换时如何高效更新记忆? 传统做法是在 prompt 边界处清空并重建 KV Cache,这造成两个问题:(1) 重建开销大,打断流式生成的实时性;(2) 清空历史信息可能导致前后帧视觉不连贯。 SWIFT 的做法完全不同:不清空缓存,而是把新 prompt 的语义'注入'到已有 cache 中。具体实现:计算每个注意力头当前 KV 状态与新 prompt 特征的对齐度(余弦相似度),对齐度高的头已经自然适配新语义(少注入),对齐度低的头需要更多新信息(多注入)。 自适应动态窗口:不同 prompt 阶段的记忆需求不同——刚切换时需要大窗口保持过渡平滑,稳定后可缩小窗口节省显存。SWIFT 根据生成帧数和语义稳定度自动调整窗口大小。 关键优势:完全无训练,可直接插入任何因果视频扩散模型。 5.3 核心创新 提出 SWIFT(Semantic Windowing and Injection for Flexible Transitions)无训练框架:(1) 语义注入缓存增强——不重建缓存,而是将新 prompt 语义注入已有缓存中;(2) 逐头语义注入——每个注意力头按自身与当前视频状态的对齐度决定接收多少新语义更新;(3) 自适应动态窗口——按 prompt 阶段分配时间记忆容量。 5.4 实验结果 在保持生成质量的同时,单卡 H100 上达到 22.6 FPS。多 prompt 长视频(>200 帧)的语义切换平滑度显著优于重建方案。与 Self Forcing 等 AR 模型即插即用兼容。 5.5 关键洞察 [{'point': '语义对齐度计算延迟', 'detail': '逐头计算语义对齐度本身引入额外延迟,在极端实时场景下可能成为瓶颈'}, {'point': '双向注意力适用性', 'detail': '仅在因果视频扩散模型上验证,对双向注意力架构是否同样有效存疑'}, {'point': '复杂语义切换', 'detail': '在多重、快速的语义切换场景下(如 5 秒内切换 3 次 prompt)的稳定性未充分验证'}] 技术演进定位: 首个无训练的流式语义切换方案 可能的后续方向: 与 KV 压缩组合 多模态条件注入 6. CDM:连续时间分布匹配蒸馏:阿里/南开提出动态连续调度,从离散锚定进化到连续流形优化 论文: CDM:连续时间分布匹配蒸馏 arXiv: 2605.06376 机构: Alibaba, Nankai University 6.1 研究动机 核心问题: DMD 离散锚定导致少步生成伪影 DMD(Distribution Matching Distillation)是少步扩散蒸馏的主流范式之一,但有个根本缺陷:它在离散时间步上做分布匹配——只在 {0, 0.25, 0.5, 0.75, 1.0} 等稀疏锚点对齐分布。这种离散锚定加上反向 KL 散度的模式寻求特性,容易产生视觉伪影和过度平滑。通常需要额外的 GAN 判别器或奖励模型来修补,系统复杂度极高。 前序工作及局限: DMD/DMD2:离散时间步分布匹配 Progressive Distillation:渐进蒸馏但步数固定 与前序工作的本质区别: 连续时间采样 + 轨迹偏离匹配,移除 GAN/奖励辅助 6.2 方法原理 ![Overview of Continuous-Time Distribution Matching (CDM). Top: Our approach employs a dynamic continuous time schedule during backward simulation, sampling intermediate anchors uniformly from $(0, 1]$. Bottom Left: CFG augmentation (CA) and distribution matching (DM) operate on this dynamic schedule to align text-image conditions and data distributions at on-trajectory anchors. Bottom Right: To address inter-anchor inconsistency, the proposed CDM objective explicitly extrapolates off-trajectory latents ($x_t_i'$) using the predicted velocity.](https://jefxiong-1304293246.cos.ap-shenzhen-fsi.myqcloud.com/AIGC/20260516/2605.06376_1.png) CDM 的核心洞察:DMD 之所以需要 GAN 和奖励模型修补,是因为离散锚定注定了'覆盖不全'——轨迹上 99% 的点没有监督信号,模型在这些无监督区域自由飘移。 解决方案:把分布匹配从离散点扩展到连续流形。具体实现:(1) 训练过程中不再用固定时间步集合 {t₁, t₂, ...},而是在 [0,1] 上连续采样匹配点,采样概率密度随训练动态调整——模型薄弱的区域被更频繁地采样;(2) 对齐目标不再局限于 ODE 轨迹上的点,还主动采样轨迹附近的'偏离点'——这迫使模型学习在轨迹邻域内也保持良好的分布匹配。 效果:连续调度消除了离散锚定的覆盖空洞,偏离匹配增强了模型在采样扰动下的鲁棒性。两者组合后,即使不用 GAN 和奖励模型,视觉质量也能匹配甚至超越带这些辅助模块的方案。 6.3 核心创新 将 DMD 框架从离散锚定首次迁移到连续优化:(1) 动态连续调度——允许在任意轨迹点(而非预设锚点)做分布匹配,采样点随训练自适应调整;(2) 连续时间对齐目标——主动在偏离 ODE 轨迹的位置做匹配,增强鲁棒性。无需 GAN、无需奖励模型等复杂辅助模块。 6.4 实验结果 ![Empirical evidence of schedule decoupling. (a) Conventional distillation strictly anchors backward simulation to predefined discrete inference timesteps. In contrast, our dynamic scheduling optimizes over uniformly sampled continuous timesteps $t (0, 1]$ at each iteration. (b) Visually, the dynamically scheduled model produces finer details and fewer artifacts than the strictly aligned baseline. (c) Quantitatively, it also attains a higher HPSv3 score, indicating that exact discrete alignment is not only unnecessary but in fact restrictive---motivating our continuous-time formulation.](https://jefxiong-1304293246.cos.ap-shenzhen-fsi.myqcloud.com/AIGC/20260516/2605.06376_2.png) 在 SD3-Medium 和 Longcat-Image 上展示了高度竞争力的少步生成视觉保真度。4 步 FID 达到接近 50 步教师的水平。代码已开源(GitHub)。无需 GAN 或奖励模型的极简架构降低了工程复杂度。 6.5 关键洞察 [{'point': '训练开销', 'detail': '连续调度增加了每步的采样复杂度,实际训练时间和显存开销的对比数据不够充分'}, {'point': '视频域验证缺失', 'detail': '仅在图像模型上验证,视频域的时序一致性是否同样受益未知'}, {'point': '与 CD 方法对比', 'detail': '与 Consistency Distillation 的直接对比较少,两者互补性未探讨'}] 技术演进定位: 分布匹配蒸馏从离散走向连续的进化 可能的后续方向: 视频域连续调度 自适应精度匹配 7. SANA-WM:2.6B 参数分钟级世界模型的算力民主化:NVIDIA/MIT/港科大提出 Hybrid Linear DiT,单卡 RTX 5090 生成 60s 720p 论文: SANA-WM:2.6B 参数分钟级世界模型的算力民主化 arXiv: 2605.15178 机构: NVIDIA, MIT, HKUST 7.1 研究动机 核心问题: 分钟级世界模型训练和推理都需要海量资源 分钟级世界模型是通往具身智能和虚拟环境仿真的必经之路。但现有方案面临三重困境:(1) 画质要求媲美产业级大模型(LingBot-World、HY-WorldPlay),(2) 训练需要海量闭源数据和数百张 GPU,(3) 推理需要多卡集群。结果是:开源社区几乎没有可用的分钟级世界模型。 前序工作及局限: Genie2/3:分钟级但闭源/昂贵 SANA:高效图像生成架构 与前序工作的本质区别: Hybrid Linear Attention + 公开数据 + 量化蒸馏 → 消费级 GPU 7.2 方法原理 SANA-WM 的核心挑战:如何用有限资源做出质量不差的分钟级世界模型? Hybrid Linear Attention:纯 softmax attention 的 O(n²) 复杂度在分钟级视频(数千帧)上不可承受。SANA-WM 将 frame-wise 的 Gated DeltaNet(线性复杂度,处理帧内 token)与跨帧的 softmax attention(处理时序依赖)混合——帧内用线性、帧间用 softmax,总复杂度接近 O(n)。 Dual-Branch Camera Control:世界模型需要精确的 6-DoF 相机控制。SANA-WM 设计双分支:一个分支处理相机轨迹的全局运动趋势,另一个处理局部帧间旋转/平移细节,两者融合后注入 DiT。 数据方案:不依赖闭源数据,而是从公开视频(WebVid 等)自动提取 metric-scale 6-DoF 相机姿态作为 action 标签。标注流水线基于 DUSt3R + SLAM,全自动无人工。 推理优化:蒸馏 + NVFP4 量化,在单张 RTX 5090 上 34 秒生成 60s 720p clip。 7.3 核心创新 提出 SANA-WM:首个面向分钟级视频生成的开源高效世界模型。三大技术突破:(1) Hybrid Linear Attention——frame-wise Gated DeltaNet 与 softmax attention 混合,长上下文内存 O(n) 可控;(2) Dual-Branch Camera Control——保证 6-DoF 轨迹精确跟随;(3) 鲁棒标注流水线——从公开视频自动提取 metric-scale 6-DoF 相机姿态。 7.4 实验结果 仅用约 213K 公开视频片段、64 张 H100 训练 15 天。单 GPU 即可生成 60s 720p clip。蒸馏量化版在单卡 RTX 5090 上 NVFP4 下 34 秒完成。在 1 分钟世界模型 benchmark 上动作跟随精度强于现有开源 baseline,画质相当但吞吐高 36 倍。 7.5 关键洞察 [{'point': 'Refiner 依赖', 'detail': '1 分钟生成仍依赖 stage-2 refiner 外置模块,端到端质量与商业闭源仍有差距'}, {'point': '场景多样性', 'detail': '213K 公开视频的场景覆盖度有限,复杂室内/多物体交互场景可能生成质量不稳定'}, {'point': '6-DoF 精度', 'detail': '自动标注的 6-DoF 姿态精度受限于 DUSt3R/SLAM 的能力,在快速运动或低纹理场景可能有偏差'}] 技术演进定位: 首个面向消费级硬件的开源分钟级世界模型 可能的后续方向: 多模态 action 物理引擎耦合 8. CausalCine:多镜头叙事的实时自回归视频生成:港科大/蚂蚁/上交提出内容感知记忆路由 CAMR 支持动态镜头切换 论文: CausalCine:多镜头叙事的实时自回归视频生成 arXiv: 2605.12496 机构: HKUST, Ant Group, SJTU 8.1 研究动机 核心问题: AR 视频模型无法处理多镜头叙事中的镜头转换 现有自回归视频模型解决了'开放式生成'——可以无限延伸画面。但电影叙事不是无限延伸单一场景——它需要事件演进、视角切换、镜头边界。当用户说'先拍远景,然后切到近景,再来个俯拍'时,现有 AR 模型将其视为单一长序列延伸,结果:运动停滞、语义漂移、无法处理镜头转换。 前序工作及局限: Self Forcing:单镜头流式生成 MovieGen:多镜头但非 AR/非实时 与前序工作的本质区别: CAMR 内容感知路由 + 多镜头训练数据构建 8.2 方法原理 CausalCine 解决的核心问题:如何让 AR 视频模型理解'镜头'概念? 传统 AR 视频模型把所有帧当作同质序列——前一帧和后一帧的关系是'延续'。CausalCine 引入镜头边界的概念:同一镜头内的帧关系是'延续',跨镜头帧关系是'切换'——两者需要完全不同的记忆策略。 CAMR (Content-Aware Memory Routing) 的具体做法:不使用固定的滑动窗口来管理历史 KV Cache,而是让每个新 token 通过注意力得分动态选择'回忆什么'。镜头切换时,与新镜头语义相关的历史(如同一人物的远景)被高权重检索,无关历史(如前一场景的背景细节)被低权重淡化。 这本质上是一种学习到的'选择性遗忘'——让模型在保持叙事连贯性(人物/故事线)的同时,允许视觉内容的突变(场景切换)。 最后蒸馏为少步实时生成器,保持交互式特性。 8.3 核心创新 将多镜头视频生成转化为在线导演过程:(1) 在原生多镜头序列上训练因果基础模型,学习复杂的镜头转换先验(淡入淡出/硬切/运镜等);(2) 提出 Content-Aware Memory Routing (CAMR)——按注意力相关性动态检索历史 KV 条目而非固定窗口,让镜头切换时记忆'该忘的忘、该记的记'。 8.4 实验结果 显著超越自回归基线,接近双向模型能力。多镜头叙事的连贯性(人物一致性、情节连续性)在主观评测中远超现有 AR 方案。支持动态 prompt 实时切换——生成中途改变指令,模型自动执行镜头切换。 8.5 关键洞察 [{'point': '训练数据获取', 'detail': '原生多镜头视频的镜头边界标注获取成本未讨论,是否需要大量人工标注'}, {'point': '蒸馏后多样性', 'detail': '蒸馏为少步生成器后,镜头转换的多样性(淡入/硬切/运镜等)是否被压缩到少数模式'}, {'point': '长叙事稳定性', 'detail': '超过 10 个镜头的长叙事中,人物一致性是否能稳定维持'}] 技术演进定位: 首个面向多镜头叙事的实时 AR 视频框架 可能的后续方向: 分镜自动规划 多角色追踪 横向对比与技术脉络总结 横向对比:本周实时视频生成技术路线对比 论文 核心方法 推理步数 单卡速度 是否需要训练 视频长度 是否开源 Causal Forcing++ 因果一致性蒸馏 Frame-wise 2 步 未公布 FPS 需蒸馏训练 开放式流式 未开源 AnyFlow Flow Map 任意步数蒸馏 4-32 步灵活 未公布 FPS 需蒸馏训练 标准长度 待开源 RAVEN 训练-测试对齐 + CM-GRPO 少步(具体步数未公布) 未公布 FPS 需 RL 训练 开放式流式 待开源 Forcing-KV KV Cache 混合压缩 与基模型一致 29+ FPS (H200) 无训练推理优化 开放式长视频 待开源 SWIFT 语义注入缓存 与基模型一致 22.6 FPS (H100) 完全无训练 多 prompt 长视频 待开源 CDM 连续时间分布匹配 4 步 标准推理 需蒸馏训练 图像(待扩展视频) 已开源 SANA-WM Hybrid Linear DiT 多步(+量化加速) 34s/60s clip (5090) 需完整训练 60s 分钟级 已开源 CausalCine 内容感知记忆路由 少步(蒸馏后) 实时级 需多镜头训练 多镜头叙事 待开源 核心技术趋势 因果自回归蒸馏从 chunk-wise 4 步推向 frame-wise 1-2 步,实时交互成为现实 Causal Forcing++ 证明因果一致性蒸馏可以在 frame 粒度实现高质量 2 步生成,首帧延迟降低 50%,解锁了真正的流式交互式视频生成 训练-推理分布对齐成为自回归视频蒸馏的核心议题 RAVEN 通过 rollout 重打包直接弥合训练时 teacher history 与推理时 student rollout 的分布 gap,配合 CM-GRPO 实现端到端对齐 KV Cache 压缩与自适应记忆方案使流式视频生成在单卡上实现 20-30 FPS Forcing-KV 发现注意力头的功能特化规律(静态/动态),SWIFT 提出无训练语义注入方案,两者分别在 H200 和 H100 单卡上实现实时吞吐 世界模型正在从封闭系统走向开源、从秒级走向分钟级 SANA-WM 以 2.6B 参数 + 213K 公开视频在单卡 RTX 5090 上生成 60s 720p 视频,吞吐比闭源方案高 36 倍,标志着世界模型的算力民主化 核心技术难点与开放问题 四大核心难点 1. 少步生成的质量天花板 当采样步数降到 1-2 步,模型本质上在做'条件预测'而非'迭代去噪'。Causal Forcing++ 在 2 步下已接近 4 步水平,但与 50 步教师仍有可见差距。AnyFlow 通过 flow map 让多步时性能恢复,但 1-2 步仍是瓶颈。核心问题:少步生成的理论质量上界在哪里? 2. 长序列的累积误差与遗忘 所有 AR 模型都面临长序列退化:RAVEN 通过训练-测试对齐缓解,Forcing-KV/SWIFT 通过 cache 管理控制,CausalCine 通过 CAMR 选择性遗忘。但 1000+ 帧的真正长视频中,这些方案能否持续有效?'选择性遗忘'与'不该遗忘'之间的精确边界难以界定。 3. 蒸馏与 RL 对齐的统一 本周出现三条竞争路线:Causal CD(蒸馏为主)、AnyFlow(flow map 蒸馏)、CM-GRPO(RL 对齐)。它们解决不同层面问题但目前各自为战——是否存在一个统一框架,先 flow map 蒸馏获得任意步数能力,再 CM-GRPO 对齐到人类偏好? 4. 实时生成的硬件民主化 Forcing-KV 在 H200、SWIFT 在 H100、SANA-WM 在 RTX 5090 上实现实时/近实时。但消费级 GPU(如 RTX 4090 甚至 RTX 4060)上呢?真正的用户端实时体验需要把算力需求再降一个量级,这可能需要蒸馏+量化+剪枝+cache 压缩的全栈优化。 今日讨论 自回归视频生成已经进入'实时'门槛——Forcing-KV 29 FPS、SWIFT 22.6 FPS、Causal Forcing++ frame-wise 2 步。下一步的核心问题是:实时生成的质量天花板在哪里?当采样步数降到 1-2 步,模型本质上在做'条件预测'而非'迭代去噪',这对视觉保真度的根本影响是什么?AnyFlow 通过 flow map 让步数可伸缩、RAVEN 通过 RL 对齐推理分布——这两条路线谁更有可能统一少步和多步的质量-速度曲线? 人工智能炼丹君 整理 | 数据来源:arXiv 2026-05-11 ~ 2026-05-16 更多 AIGC 论文解读,关注微信公众号「人工智能炼丹君」 每日更新 · 论文精选 · 深度解读 · 技术脉络 微信搜索 人工智能炼丹君 或扫描下方二维码关注
2026年05月16日
119 阅读
0 评论
0 点赞
2026-05-15
AIGC 每日速读|2026-05-15|实时视频2步出帧Causal Forcing++
今日 AIGC 论文速览 今日共 8 篇 · 实时 AR 视频与世界模型 3 篇 · 相机控制与视频生成 2 篇 · 图像编辑持续学习 1 篇 · 扩散模型 RL 后训练 1 篇 · 视频世界模型评测 1 篇 重点论文标题列表 Causal Forcing++:因果一致性蒸馏 Warp-as-History:把相机引起的形变直接转化为「相机扭曲 ACE-LoRA:动态正则化框架 RefDecoder:参考条件视频 VAE decoder DiffusionOPD:多任务训练范式 今日论文速览 1. Causal Forcing++:因果一致性蒸馏 Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation | 清华 TSAIL, 生数科技 | arXiv:2605.15141 关键词:少步AR视频·因果一致性蒸馏·实时交互生成·世界模型·Genie3 前序问题:实时交互式视频生成需要低延迟、流式、可控的 rollout。现有自回归扩散蒸馏在 chunk-wise 4 步取得了不错效果,但 chunk 粒度过粗、采样延迟仍然不可忽略;当尝试更激进的 frame-wise 1-2 步时,少步 AR 学生的初始化策略要么目标错位、要么不能少步生成、要么算力代价大到无法 scale 本文贡献:提出 Causal Forcing++ 因果一致性蒸馏(Causal CD)流水线:核心观察是 Causal CD 学习与 Causal ODE 蒸馏相同的 AR-条件流图,但只需在相邻时间步之间用一次教师 ODE 步在线提供监督,无需预先计算并存储完整 PF-ODE 轨迹——既高效又易优化;进一步把流水线扩展到 Genie3 风格的 action-conditioned 世界模型 实验效果:在 frame-wise 2 步设定下,全面超越 SOTA 4 步 chunk-wise Causal Forcing:VBench Total +0.1、VBench Quality +0.3、VisionReward +0.335,同时首帧延迟降低 50%、Stage 2 训练成本降至约 1/4 批判点评:把蒸馏从 chunk-wise 4 步推进到 frame-wise 2 步,是实时交互式视频生成可用性上的关键一步——把瓶颈识别为「初始化」是非常贴切的诊断;但 1-2 步生成对教师 ODE 误差的放大效应、以及在更复杂 action 条件下的稳定性还需更多压力测试 2. Warp-as-History:把相机引起的形变直接转化为「相机扭曲 Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video | 上海交大, 上海 AI Lab | arXiv:2605.15182 关键词:相机控制·视频生成·零样本·伪历史·LoRA 微调 前序问题:相机可控视频生成已经很成熟,但现有方法普遍需要在大规模带相机标注的视频上做后训练(额外的 camera encoder、控制分支、注意力/位置编码改造);training-free 方案则把代价转嫁到测试时优化或 denoising 时的额外 guidance,依然不便宜 本文贡献:提出 Warp-as-History:把相机引起的形变直接转化为「相机扭曲后的伪历史」,在 frozen 视频生成模型自带的「视觉历史」通路中喂进去——目标帧位置编码对齐、剔除没有有效观测来源的 token,无需训练或架构改动即可零样本服从相机轨迹;可选用一段相机标注视频做轻量 LoRA 微调进一步提升泛化能力 实验效果:在多个数据集上的实验显示:完全 training-free 即可让冻结视频生成模型获得不平凡的相机轨迹跟随能力;只用「一段」相机标注视频做 LoRA 微调,即可在未见视频上同时改善相机贴合度、画质与运动动态 批判点评:把相机可控问题视作「历史 warp」是一个非常优雅的视角,几乎不增加任何训练成本;但 zero-shot 能力依赖底模的「视觉历史」通路是否足够强,没有该通路的扩散视频模型迁移性可能受限;另外极端轨迹下的孔洞填充质量值得关注 3. ACE-LoRA:动态正则化框架 ACE-LoRA: Adaptive Orthogonal Decoupling for Continual Image Editing | 上海交大, vivo AI Lab | arXiv:2605.14948 关键词:持续学习·图像编辑·LoRA·正交解耦·CIE-Bench 前序问题:现有 SOTA 扩散模型靠参数高效微调(LoRA 等)适配各类图像编辑任务,但真实业务需要在不断到来的新任务上持续学习同时保留旧任务能力;图像编辑的持续学习问题至今几乎没人系统研究,灾难性遗忘问题严重 本文贡献:提出 ACE-LoRA 动态正则化框架:通过 Adaptive Orthogonal Decoupling 自动识别并正交化任务间干扰,再用 Rank-Invariant Historical Information Compression 解决持续更新中的可扩展性瓶颈;同时发布 CIE-Bench——业内首个面向图像编辑的持续学习评测基准 实验效果:在指令保真度、视觉真实感、抗遗忘鲁棒性上一致优于现有 baseline,建立了「图像编辑持续学习」这一子方向的标准方法+标准评测 批判点评:把「持续学习」首次正式带到图像编辑领域,问题设定和 benchmark 都非常务实;但 14 维基因式正交化的超参对任务序列分布的鲁棒性、以及面对几十个长尾编辑任务时压缩策略的极限,需要更长任务流的实测 4. RefDecoder:参考条件视频 VAE decoder RefDecoder: Enhancing Visual Generation with Conditional Video Decoding | University of Washington, UNC | arXiv:2605.15196 关键词:视频 VAE·参考条件 decoder·视频生成·即插即用·VBench 前序问题:主流 latent 视频扩散模型的 denoising 网络条件丰富,但 VAE decoder 几乎都是无条件的——这种结构性不对称导致细节流失、与输入参考图不一致,是当前视频生成「看起来糊糊的」的隐藏元凶 本文贡献:提出 RefDecoder 参考条件视频 VAE decoder:用一个轻量图像编码器把参考帧映射成细节丰富的高维 token,在 decoder 每个 upsampling stage 与去噪后的视频 latent token 共同处理(reference attention),让 decoder 也获得与 denoising 网络对等的条件信息 实验效果:在 Wan 2.1、VideoVAE+ 等多个 decoder backbone 上一致提升 PSNR 最多 +2.1dB(Inter4K / WebVid / Large Motion);可直接热插拔进现有视频生成系统,无需额外微调,VBench I2V 上主体一致性、背景一致性、综合质量全面提升;天然泛化到风格迁移、视频编辑精修等任务 批判点评:这是一项「补条件」的低风险高收益工作,可即插即用是工程师最爱的属性;但 decoder 端注入参考可能在大幅运动场景下与 latent 表示冲突,长视频累积误差与 reference token 选择策略仍有优化空间 5. DiffusionOPD:多任务训练范式 DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models | 阿里 Wan Team, 复旦 | arXiv:2605.15055 关键词:扩散模型 RL·On-Policy 蒸馏·多任务·Wan Team·文生图 前序问题:强化学习是改进文生图扩散模型的强力工具,但现有方法大多局限于单任务优化——多任务联合 RL 受困于跨任务干扰和不平衡,级联 RL 又笨重且易遗忘 本文贡献:提出 DiffusionOPD 多任务训练范式:先独立训练任务专属 teacher,再沿学生自己的 rollout 轨迹做 Online Policy Distillation 把多 teacher 能力蒸馏到统一学生;理论上首次把 OPD 框架从离散 token 提升到连续状态 Markov 过程,给出闭式 per-step KL 目标,统一 SDE 与 ODE refinement,方差更低、泛化更好 实验效果:一致超越多奖励 RL 与级联 RL 基线,训练效率与最终性能两端均占优,在所有评测基准上达到 SOTA 批判点评:把 OPD 严格地搬上连续扩散是漂亮的理论延伸,多任务版本对落地非常有价值;但 teacher 数量增加后蒸馏的 token-level KL 是否仍稳定、teacher 与学生 capacity 失配时的下界,仍需更大规模实验 6. RAVEN:框架 RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO | 帝国理工 AGI Lab | arXiv:2605.15190 关键词:实时 AR 视频·一致性模型·CM-GRPO·训练-测试对齐·流式生成 前序问题:因果自回归视频扩散模型靠把过去内容外推未来 chunk 实现实时流式生成,蒸馏自高保真双向教师后已能少步推理;但训练时 history 分布与推理时实际 rollout 分布之间的 gap 一直限制长序列的生成质量 本文贡献:提出 RAVEN training-time test 框架:把每次自身 rollout 重打包为「干净历史端点 + 噪声去噪状态」交错序列,让训练注意力对齐推理时的外推方式,同时让下游 chunk loss 监督未来预测所依赖的历史表示;进一步提出 CM-GRPO,把 consistency 采样步重新表达为条件高斯转移,直接在该核上做在线 RL,避免了之前 flow-model RL 公式中的 Euler-Maruyama 辅助过程 实验效果:RAVEN 在质量、语义、动态度多维评测上超越近期因果视频蒸馏 baseline;CM-GRPO 与 RAVEN 组合后进一步提升性能 批判点评:把 training-test 不一致问题正面解决并配套 CM-GRPO 是组合拳;但 RAVEN 重打包对长序列内存占用的影响、CM-GRPO 在更复杂奖励上的稳定性,还需要在更大模型尺度上验证 7. SANA-WM:2.6B 参数原生面向 1 SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer | NVIDIA, MIT, 港科大 | arXiv:2605.15178 关键词:世界模型·分钟级视频·Hybrid Linear Attention·6-DoF 相机·开源 前序问题:一分钟级别的世界模型既要画质媲美 LingBot-World、HY-WorldPlay 这些产业级大模型,又要在算力、数据、推理硬件三方面都「能用得起」——目前几乎没有开源方案能同时做到 本文贡献:提出 SANA-WM:2.6B 参数原生面向 1 分钟视频生成的开源世界模型——(1) Hybrid Linear Attention 把 frame-wise Gated DeltaNet 与 softmax attention 混合,长上下文内存可控;(2) Dual-Branch Camera Control 保证 6-DoF 轨迹精确跟随;(3) 两阶段生成 + long-video refiner;(4) 鲁棒标注流水线从公开视频中提取 metric-scale 6-DoF 相机姿态作为动作标签 实验效果:仅用约 213K 公开视频片段、64 张 H100 训练 15 天,每个 60s 720p clip 单 GPU 即可生成;蒸馏量化版可在单卡 RTX 5090 上 NVFP4 量化下 34 秒生成 60s 720p;在 1 分钟世界模型 benchmark 上动作跟随精度强于现有开源 baseline,画质相当但吞吐高 36 倍 批判点评:把「分钟级世界模型」做到能在单张消费卡上跑动,是世界模型走向开发者手里的关键一步;但 1 分钟仍然依赖「stage-2 refiner」这一外置模块,端到端 1 分钟生成质量与商业闭源仍有差距 8. PDI-Bench:几何一致性量化框架 Quantitative Video World Model Evaluation for Geometric-Consistency | UCSD, 港科大等 | arXiv:2605.15185 关键词:视频世界模型·几何一致性·评测基准·3D 重建·物理推理 前序问题:生成视频模型越来越被当作隐式世界模型来研究,但「生成视频是否产生了物理合理的 3D 结构与运动」一直缺乏客观度量——现有评测要么靠人工打分要么靠学习式 grader,对几何失败的诊断力都很弱 本文贡献:提出 PDI-Bench(Perspective Distortion Index)几何一致性量化框架:先用 SAM 2、MegaSaM、CoTracker3 抽取物体级观测,单目重建到 3D 世界坐标,再算三类射影几何残差——尺度-深度对齐、3D 运动一致性、3D 结构刚性;配套 PDI-Dataset 覆盖多种压力测试场景 实验效果:在多个 SOTA 视频生成器上揭示了通用感知指标完全捕获不到的「几何特定失败模式」,为「物理基础视频生成 / 物理世界模型」的进展提供了可诊断信号 批判点评:把视频世界模型评测从「看起来对不对」推进到「几何上对不对」是必要的下一步,依托成熟 3D 工具链让指标可复现;但单目重建本身的误差对 PDI 指标的噪声有多大、对真实开放世界长尾场景的覆盖度,是后续要补的关键证据 趋势观察 实时交互视频生成进入 frame-wise 时代 — Causal Forcing++ 把少步 AR 视频从 chunk-wise 4 步压缩到 frame-wise 2 步,首帧延迟降一半;RAVEN 用 training-time test + CM-GRPO 直击 history 分布漂移——实时交互视频已经从「能动」进入「秒级响应」 相机控制从「重训」走向「零样本 + 一段视频微调」 — Warp-as-History 把相机条件转译为 frozen 模型自带的视觉历史通路,零样本即跟随;只用一段视频做 LoRA 即可泛化到未见素材——相机可控视频生成从「依赖大规模标注」滑向「轻数据即用」 VAE decoder 不再是哑终端 — RefDecoder 指出主流视频扩散模型 decoder 长期处于「无条件」状态,导致细节流失;用 reference attention 给 decoder 也加上条件,PSNR 直接 +2.1dB——decoder 端的条件化正成为视频生成的下一个低悬果实 世界模型走向消费级硬件 — SANA-WM 用 Hybrid Linear Attention + 量化在单卡 RTX 5090 上跑出 34 秒生成 60 秒 720p——分钟级世界模型第一次具备了「开发者本地可玩」的硬件包络 评测从感知质量转向几何/物理一致性 — PDI-Bench 把视频世界模型的考评从「看起来真不真」转到「几何上对不对」,借助成熟 3D 工具链给出射影几何残差——这预示着视频生成下一阶段的评测竞赛是「物理可解释性」 人工智能炼丹君 整理 | 2026-05-15 更多 AIGC 论文解读,关注微信公众号「人工智能炼丹君」 每日更新 · 论文精选 · 深度解读 · 技术脉络 微信搜索 人工智能炼丹君 或扫描下方二维码关注
2026年05月15日
44 阅读
0 评论
0 点赞
粤ICP备2021042327号