AIGC 每日速读|2026-05-11|Cola DLM 扩散语言模型挑战自回归范式

人工智能炼丹君
2026-05-11 / 0 评论 / 4 阅读 / 正在检测是否收录...

今日 AIGC 论文速览

今日共 10 篇 · 视频生成与渲染 3 篇 · 扩散模型对齐与RL 2 篇 · 推理加速与蒸馏 2 篇 · 评测基准与奖励模型 2 篇 · 医学视频编辑 1 篇

重点论文标题列表

  • Relit-LiVE:无需相机位姿的物理一致视频重光照
  • MARBLE:多维奖励平衡的扩散模型强化学习
  • HSA:异构步数分配加速DiT视频生成
  • VURB:视频理解奖励模型的鲁棒基准
  • ReasonEdit:可解释图像编辑评估


今日论文速览

1. Relit-LiVE:无需相机位姿的物理一致视频重光照

Relit-LiVE: Relight Video by Jointly Learning Environment Video | ETH | arXiv:2605.06658

关键词:视频重光照 · 视频扩散 · 环境贴图预测 · 内在分解 · 神经渲染

  • 前序问题:现有视频重光照范式依赖精确的内在分解(albedo/normal/shading),但真实视频的内在分解高度不可靠,导致重光照结果出现外观失真、材质破损和时序伪影累积
  • 本文贡献:提出 Relit-LiVE,通过引入原始参考图像恢复内在分解中丢失的关键场景线索,并首创环境视频预测公式,在单次扩散过程中同时生成重光照视频和逐帧环境贴图
  • 实验效果:在合成和真实场景基准上均一致优于SOTA视频重光照和神经渲染方法,支持场景级渲染、材质编辑、物体插入和流式视频重光照等下游应用
  • 批判点评:联合预测环境贴图的方式优雅地避开了内在分解的瓶颈,但环境视频预测本身的精度上限取决于扩散模型的几何理解能力;流式重光照的实时性指标未详细报告

2. MARBLE:多维奖励平衡的扩散模型强化学习

MARBLE: Multi-Aspect Reward Balance for Diffusion RL | ETH | arXiv:2605.06507

关键词:扩散模型RL · 多奖励对齐 · 梯度平衡 · 二次规划 · RLHF

  • 前序问题:扩散模型多奖励对齐中,加权求和方案因样本级别不匹配导致梯度互相稀释——大多数 rollout 仅对特定奖励维度有信息量,对其他维度无关,加权聚合丢失了这种差异性
  • 本文贡献:提出 MARBLE 梯度空间优化框架,为每个奖励维度维护独立优势估计器并计算逐奖励策略梯度,通过求解二次规划问题将多维梯度协调为单一更新方向,无需人工调权重
  • 实验效果:在 SD3.5 Medium + 5 个奖励维度上同时提升全部指标,将加权求和方案中最差维度的梯度余弦从80%批次为负扭转为持续正值,训练速度保持基线的 0.97 倍
  • 批判点评:QP 求解将多奖励冲突显式化处理是优雅的,但 5 维奖励的结论能否推广到更多维度(如10+)需验证;EMA 平滑引入的额外超参数可能增加调优成本

3. HSA:异构步数分配加速DiT视频生成

Not All Tokens Need 40 Steps: Heterogeneous Step Allocation in Diffusion Transformers for Efficient Video Generation | Johns Hopkins University | arXiv:2605.06892

关键词:DiT加速 · 异构步数分配 · KV-cache · 视频生成 · 无训练推理

  • 前序问题:DiT 视频生成标准推理对每个 token 均匀施加相同去噪步数,但人类视觉忽略大量冗余运动,均匀分配造成巨大计算浪费
  • 本文贡献:提出 HSA(Heterogeneous Step Allocation),基于 token 速度动态为不同时空 token 分配不同去噪步数,通过 KV-cache 同步机制和缓存 Euler 更新实现无训练推理加速
  • 实验效果:在 Wan-2 和 LTX-2 模型的 T2V/I2V 任务上显著优于现有缓存方法,在 50% 和 25% 计算预算下仍保持结构完整性和生成质量,无需离线 profiling
  • 批判点评:基于速度动态的 token 重要性判断简单高效,但速度指标能否准确捕获所有视觉显著性值得商榷;在极端加速(如 25% 预算)下的长视频质量退化模式需要更多分析

4. VURB:视频理解奖励模型的鲁棒基准

Video Understanding Reward Modeling: A Robust Benchmark and Performant Reward Models | PKU / ByteDance | arXiv:2605.07872

关键词:视频奖励模型 · 偏好学习 · CoT推理 · 视频理解 · 基准测试

  • 前序问题:多模态奖励模型在文本和图像领域进展迅速,但视频理解方向的奖励建模严重受限于缺乏鲁棒的评测基准和高质量偏好数据
  • 本文贡献:提出 VURB 基准(2,100 偏好对 + 长链推理痕迹)和 VUP-35K 全自动偏好数据集,训练出 VideoDRM(判别式)和 VideoGRM(生成式)两种视频奖励模型
  • 实验效果:两种奖励模型在 VURB 和 VideoRewardBench 上均达到 SOTA,VUP-35K 数据同时提升奖励性能和模型推理能力,best-of-N 测试时缩放显著增益
  • 批判点评:统一框架覆盖了基准设计、数据构建和模型训练,但 VURB 偏好对数量(2,100)相对有限;VUP-35K 全自动构建的偏好质量上限取决于标注模型的视频理解能力

5. ReasonEdit:可解释图像编辑评估

ReasonEdit: Towards Interpretable Image Editing Evaluation via Reinforcement Learning | SJTU / UESTC | arXiv:2605.07477

关键词:图像编辑评估 · CoT推理 · 奖励模型 · GRPO · 可解释AI

  • 前序问题:现有文本引导图像编辑(TIE)评估方法大多依赖标量分数缺乏可解释性,主要原因是缺少高质量的 TIE 解释数据集和有效的奖励模型来训练可解释评估器
  • 本文贡献:构建 ReasonEdit-22K 数据集(22K 编辑图 + 113K CoT 样本 + 1.3M 人类判断),提出 RE-Reward 奖励模型和基于 GRPO 训练的可解释评估模型 ReasonEdit
  • 实验效果:在多个公开基准上与人类偏好对齐度优于现有方法,能生成高质量可解释评估文本,实现更透明可信的图像编辑评估
  • 批判点评:首个将 CoT 推理与奖励模型结合到图像编辑评估的工作,数据规模可观(1.3M 人类判断);但可解释性的评估本身就是主观的,"逻辑性/准确性/有用性"三维度的标注一致性需关注

6. CDM:连续时间分布匹配蒸馏

Continuous-Time Distribution Matching for Few-Step Diffusion Distillation | Alibaba / Nankai | arXiv:2605.06376

关键词:蒸馏加速 · 分布匹配 · 连续时间 · Flow Matching · 少步生成

  • 前序问题:DMD 蒸馏在稀疏离散时间步上做分布匹配,加上反向 KL 散度的模式寻求特性,容易产生视觉伪影和过度平滑输出,通常需要 GAN 或奖励模型等复杂辅助模块来恢复保真度
  • 本文贡献:将 DMD 框架从离散锚定首次迁移到连续优化,提出动态连续调度(任意轨迹点分布匹配)和连续时间对齐目标(主动偏离轨迹匹配),无需 GAN 或奖励模型等复杂辅助模块
  • 实验效果:在 SD3-Medium 和 Longcat-Image 上展示了高度竞争力的少步生成视觉保真度,代码已开源
  • 批判点评:连续时间优化思路自然且优雅,有效弥补了 DMD 离散锚定的根本缺陷;但连续调度增加了采样复杂度,实际训练时间和显存开销的对比数据不够充分

7. CASCADE:上下文感知的推测解码加速图像生成

CASCADE: Context-Aware Relaxation for Speculative Image Decoding | UIUC / Qualcomm | arXiv:2605.07230

关键词:自回归图像生成 · 推测解码 · 树搜索 · 接受放松 · 推理加速

  • 前序问题:自回归图像生成计算密集且缓慢,现有推测解码在图像域无法实现文本域那样的效率提升,核心瓶颈是目标模型在图像生成时不确定性高导致草稿 token 拒绝率高
  • 本文贡献:发现目标模型在树状推测解码中的语义可互换性和收敛性两个冗余模式,利用隐状态冗余实现有原则的接受放松策略,并将冗余信号注入草稿模型训练提升独立性能
  • 实验效果:在多个文生图模型和草稿架构上实现最高 3.6 倍加速,保持图像质量和文本-提示忠实度,达到基于草稿的推测解码 SOTA
  • 批判点评:从冗余模式出发设计接受放松策略的思路新颖,3.6x 加速在实用中很有价值;但放松策略的质量保证依赖于冗余模式假设的普适性,在风格差异大的生成任务中可能失效

8. Flow-OPD:在策略蒸馏统一Flow Matching对齐

Flow-OPD: On-Policy Distillation for Flow Matching Models | USTC / UCLA / CUHK / Xiaohongshu | arXiv:2605.08063

关键词:Flow Matching · 在策略蒸馏 · GRPO · 多任务对齐 · 文生图

  • 前序问题:现有 Flow Matching 文生图模型在多任务对齐时面临两大瓶颈:标量奖励导致的奖励稀疏性和异构目标联合优化的梯度干扰,引发"跷跷板效应"和奖励黑客
  • 本文贡献:提出 Flow-OPD,首个将在策略蒸馏集成到 Flow Matching 的统一后训练框架:先通过单奖励 GRPO 培养领域专家教师,再通过冷启动+三步编排将异质专长蒸馏到单一学生模型
  • 实验效果:基于 SD3.5 Medium,GenEval 从 63 提升至 92,OCR 准确率从 59 提升至 94,比 vanilla GRPO 总体提升约 10 分,并展现出"超越教师"效应
  • 批判点评:OPD 从 LLM 社区引入扩散模型是很好的跨界迁移,GenEval +29 的提升显著;但两阶段训练(先训专家再蒸馏)的总计算成本较高,MAR 正则化引入的额外教师也增加了复杂度

9. Diffusion-APO:轨迹感知视频扩散偏好对齐

Diffusion-APO: Trajectory-Aware Direct Preference Alignment for Video Diffusion Transformers | Kuaishou | arXiv:2605.07503

关键词:视频扩散 · 偏好对齐 · 轨迹感知 · RLHF · DPO

  • 前序问题:大规模视频扩散模型与人类意图对齐需要弥合训练噪声分布与推理轨迹之间的固有差异,现有 DPO 和 GRPO 方案受限于有偏奖励模型或次优时间步采样
  • 本文贡献:提出 Diffusion-APO 轨迹感知算法,通过同步训练噪声与推理去噪路径最大化梯度信号效能,配合在线排名/半在线锚定/离线精细化/蒸馏漂移校正的统一模块化 RLHF 框架
  • 实验效果:在视觉质量和指令跟随上一致优于标准基线,同时在模型加速过程中有效保持生成保真度,提供了可扩展的端到端视频扩散对齐方案
  • 批判点评:轨迹感知的梯度信号同步是一个被忽视但重要的问题,模块化 RLHF 框架提供了灵活的多阶段对齐能力;但没有依赖标量奖励模型这一点需要更多消融验证其优势来源

10. OphEdit:无训练的眼科手术视频文本引导编辑

OphEdit: Training-Free Text-Guided Editing of Ophthalmic Surgical Videos | IIST India | arXiv:2605.07695

关键词:手术视频编辑 · 无训练 · ODE反演 · CFG注入 · 眼科AI

  • 前序问题:高保真手术视频生成对医学训练和AI开发至关重要,但将生成模型适配为精确视频编辑面临严峻挑战——手术属性修改(器械-组织交互、手术阶段变换)需满足严格的解剖和时序约束
  • 本文贡献:提出 OphEdit,利用二阶 ODE 反演捕获注意力值张量,在去噪阶段选择性注入 CFG 条件分支,在保持眼部解剖几何的同时实现文本驱动的手术语义修改
  • 实验效果:临床评估显示在器械替换、手术阶段变换等复杂转换中,结构保真度和时序一致性优于自然域视频编辑器,为首个眼科手术域的无训练视频编辑应用
  • 批判点评:首次将无训练视频编辑应用于眼科手术域是一个有价值的交叉创新;但眼科手术的解剖结构相对规整,是否能推广到更复杂的手术场景(如腹腔镜/心脏外科)需验证

趋势观察

  1. 视频重光照告别内在分解 — Relit-LiVE 跳过不可靠的内在分解,直接引入参考图像+环境视频联合预测,重新定义了视频重光照的范式
  2. 多奖励对齐进入梯度空间 — MARBLE 和 Flow-OPD 不约而同地在梯度层面解决多奖励冲突,标志着扩散模型 RLHF 从标量聚合向精细化梯度调控演进
  3. 推理加速的「不均匀」哲学 — HSA 和 CASCADE 都挑战了「均匀对待所有 token/步数」的默认假设,用异构分配和冗余利用实现更聪明的计算资源调度
  4. 蒸馏从离散走向连续 — CDM 将 DMD 从固定离散锚点迁移到连续轨迹优化,消除了离散化带来的视觉伪影,是蒸馏范式的重要理论推进
  5. AI评测走向可解释 — ReasonEdit 和 VURB 推动评测从不透明的标量分数走向 CoT 推理和长链偏好标注,让评估本身变得可审计

人工智能炼丹君 整理 | 2026-05-11

0

评论 (0)

取消
粤ICP备2021042327号