AIGC 每日速读|2026-05-20|视频生成补物理常识NEWTON

人工智能炼丹君

2026-05-20 / 0 评论 / 14 阅读 / 正在检测是否收录...

05/20

今日 AIGC 论文速览

今日共 4 篇 · 物理常识与可控视频生成 2 篇 · 世界模型与实时交互 1 篇 · 高效音频生成 1 篇

重点论文标题列表

NEWTON：Agent 编排物理工具链补条件提物理常识
IAMFlow：免训练身份记忆解决长叙事视频漂移
Stable Audio 3：H200 上 2 秒生成数分钟变长音频
Incantation：自然语言每0.25秒控多实体19.7FPS

今日论文速览

1. NEWTON：Agent 编排物理工具链补条件提物理常识

NEWTON: Agentic Planning for Physically Grounded Video Generation | 浙江大学, 香港理工大学, IROOTECH/三一集团 | arXiv:2605.18396

关键词：视频生成·物理常识·Agentic Planning·VideoPhy-2·Flow-GRPO

前序问题：视频生成模型画面好看但系统性违反物理常识——VideoPhy-2 上最强模型 joint accuracy 仅 32.6%。论文把根源诊断为「条件规约瓶颈」：文本 prompt 是物理世界的有损压缩，遗漏了真正决定动力学的参数（速度/质量/碰撞角度），单纯堆模型容量补不回来从未被指定的信息
本文贡献：提出 NEWTON 框架：把视频生成「降级」为 agent 工具箱中的一个动作，由可学习的 planner 编排关键帧生成、科学计算、prompt 改写等物理感知工具构造丰富条件，再用 verifier 闭环迭代；planner 是唯一可训练组件，在多轮真实交互中用 Flow-GRPO 在线优化。提出物理条件需满足的三条性质：sufficiency / dynamism / verifiability
实验效果：VideoPhy-2 上 joint accuracy 显著提升：LTX-Video 21.4% → 29.7%（+8.3pp），Veo-3.1 30.7% → 37.4%（+6.7pp），关键是不修改任何视频生成器底模，只改 planner
批判点评：把视频生成嵌入 agent loop 是个聪明的 reframe——既然底模拿不到完整物理参数就别强求底模，把信息构造交给可推理的 planner；但 Flow-GRPO 的训练成本不低，物理工具链对生成时延的影响论文未充分披露，verifier 能否在更多元物理现象上稳定收敛仍待验证

2. IAMFlow：免训练身份记忆解决长叙事视频漂移

Advancing Narrative Long Video Generation via Training-Free Identity-Aware Memory | 浙江大学, 腾讯优图, 华中科大, 上海交大 | arXiv:2605.18733

关键词：长视频生成·身份记忆·训练免微调·叙事生成·NarraStream-Bench

前序问题：自回归长视频生成在视觉保真度和交互上进步快，但长序列里身份漂移、角色重复、属性丢失的问题严重；现有方案要么用预定义策略压缩历史帧，要么靠粗糙的隐式注意力检索关键帧，对「带角色切换的演化型 prompt」都处理不好
本文贡献：提出 IAMFlow 训练免微调身份感知记忆框架：用 LLM 从每个 prompt 抽实体并赋予全局唯一 ID，建立身份记忆；用 VLM 异步从渲染帧验证并修正属性，把隐式相似度匹配换成显式实体追踪。配套异步视觉验证 + 自适应 prompt 切换 + 模型量化的推理加速流水线，并发布 NarraStream-Bench 长叙事流式视频评测基准（324 个多 prompt 脚本）
实验效果：NarraStream-Bench 上整体最佳，比最强 baseline 高 2.56 分；60 秒多 prompt 生成相比最高效 baseline 还有 1.39× 加速，做到「质量更好且更快」
批判点评：把身份当作显式可寻址符号、用 VLM 异步验证属性，是把 agentic memory 思想正式带进长视频生成的工作；但训练免微调依赖 LLM/VLM 的稳定性和延迟，多角色密集交互场景下全局 ID 解析是否还稳健仍是开放问题；NarraStream-Bench 的 324 个脚本规模偏小，对极端长视频（>3 分钟）的覆盖度有限

3. Stable Audio 3：H200 上 2 秒生成数分钟变长音频

Stable Audio 3: Fast Latent Diffusion for Variable-Length Audio Generation | Stability AI | arXiv:2605.17991

关键词：音频生成·latent diffusion·变长生成·对抗后训练·消费级开源

前序问题：音频生成模型在「变长生成 + 编辑修补 + 推理速度 + 消费级硬件可跑」四件事之间往往要做妥协；以前的 SA1/SA2 在长度灵活性和速度上还有进一步压榨空间，且开源生态需要一个能在 MacBook 上几秒出结果的版本
本文贡献：推出 small/medium/large 三档变长音频 latent diffusion 模型；核心创新：(1) 新的 semantic-acoustic VAE 同时压缩音频且保留语义结构；(2) 支持 inpainting 做精细化音频编辑与短录音续写；(3) 对抗后训练（adversarial post-training）减少推理步数同时提升保真度与 prompt 贴合度；(4) 训练数据全部来自 licensed + Creative Commons 数据，规避版权风险
实验效果：H200 GPU 上不到 2 秒生成数分钟音乐/音效；MacBook Pro M4 上不到几秒生成；small/medium 权重 + 训练推理 pipeline 全开源，能在消费级硬件上跑
批判点评：Stability AI 用同一份开源策略持续做了 SA1/SA2/SA3 三代——这种「商用规避版权 + 真开源 + 真在消费硬件能跑」的工作工业价值最高；但 large 档不开源、对中文/中性别人声的覆盖度论文未深入披露、是否包含 vocal/mixing 级编辑也需后续测试

4. Incantation：自然语言每0.25秒控多实体19.7FPS

Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models | 上海交大, NVIDIA Research, USTC, UCAS, NUS, UWaterloo, HKUST, HKU, 紫光研究院 | arXiv:2605.18601

关键词：视频世界模型·自然语言动作接口·实时流式·Self-Forcing·跨游戏泛化

前序问题：当前交互式视频世界模型画质好但缺多实体细粒度控制和跨实体/跨世界泛化——根因在「动作接口」：标准控制协议（动画 ID、设备输入、场景级 caption）在设计期就把动作语义绑死到具体实体或引擎上，无法跨游戏迁移
本文贡献：首次把自然语言作为视频世界模型的动作接口：每 0.25 秒（1 个 latent frame）一条自然语言条件，原生支持同时多实体控制和跨实体概念迁移；架构是预训练双向视频底模 + frame-local text cross-attention；通过 ODE-initialized Self-Forcing 蒸馏 + RoPE-decoupled 滑窗 KV-cache 实现实时长 horizon 流式生成；同款架构和训练配方迁移到《拳皇》只需换 per-entity 动作词表
实验效果：跨实体迁移成功率 89% vs Action-Index baseline 43%；out-of-vocabulary prompts 90% vs 0%；2 步学生模型在 480p 上稳定 19.7 FPS，2 小时长 rollout 不发散，FVD 维持稳定；同时发布 Elden Ring 玩家-Boss 战斗剪辑数据集预览
批判点评：把世界模型的动作接口从「枚举 ID」升级到「自由语言」是非常正确的方向，跨实体 89% vs 43% 的提升清晰证明了价值；但训练数据是手工标注的游戏片段（Elden Ring/KOF），真实世界视频里语言 → 物理动作的映射可能远比游戏复杂；Self-Forcing 蒸馏依赖双向教师的瓶颈仍未解（参考 Mutual Forcing 路线的下一步演化方向）

趋势观察

视频生成把「物理 / 身份 / 多实体」推到 agent 接口层 — 今天的三篇视频文章都在做同一件事：把视频生成从「单 prompt → 一段画面」升级为「Agent 编排条件 + 显式记忆/接口」。NEWTON 用 planner+verifier 给视频生成补物理参数；IAMFlow 用 LLM/VLM 异步给长叙事维护身份记忆；Incantation 用自然语言每 0.25 秒控制多实体。共同点：底模不动，靠外层 agentic 结构补语义
物理常识成为视频生成评测的下一个高地 — NEWTON 在 VideoPhy-2 上把 LTX-Video 从 21.4% 推到 29.7%、Veo-3.1 从 30.7% 推到 37.4%——但绝对值仍不到 40%。视频生成的下一阶段评测从「画质」转向「物理可解释性」
长视频靠「显式身份记忆」而不是「KV 容量」 — IAMFlow 的关键观察：与其压缩历史帧，不如显式给每个实体一个全局 ID 并用 VLM 异步验证属性。这是把 LLM 时代成熟的 Memory/Retrieval 思想正式搬进视频生成的标志性工作
世界模型的动作接口正在自然语言化 — Incantation 把世界模型动作从「枚举 ID」升级为「自然语言每帧条件」，跨实体迁移 89% vs 43% 的提升说明这条路线确实可行——下一阶段的世界模型可能会全面采用语言作为控制信号
音频生成的开源生态在收敛 — Stable Audio 3 用 licensed + CC 数据 + small/medium 开源 + 消费级硬件，把 SA 系列做到了「研究者本地可玩」的硬件包络——这套打法可能会被音视频联合生成（如昨日的 Mutual Forcing）下一代复制

人工智能炼丹君整理 | 2026-05-20