AIGC 每日速读|2026-05-29|生数科技minWM开源实时交互视频世界模型

人工智能炼丹君

2026-05-29 / 0 评论 / 0 阅读 / 正在检测是否收录...

05/29

今日 AIGC 论文速览

今日共 8 篇 · 视频世界模型 3 篇 · 流式视频生成 1 篇 · 音视频联合生成 1 篇 · 可控图像生成与数据 2 篇 · 大模型记忆与微调 1 篇

重点论文标题列表

minWM：实时交互视频世界模型全栈开源
NAVA：原生音视频对齐联合生成6.3B
Gamma-World：多智能体生成式世界模型
AdaState：流式视频生成自演化锚点
YoCausal：视频生成因果性认知基准

今日论文速览

1. minWM：实时交互视频世界模型全栈开源

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models | 生数科技, 清华大学 | arXiv:2605.30263

关键词：视频世界模型·实时交互·自回归蒸馏·开源·生数科技

前序问题：视频扩散基础模型已能高质量出片，但把它变成实时交互视频世界模型仍然难：交互世界模型需要可控、因果、低延迟的 rollout，实践上要打通数据构造、可控微调、自回归训练、少步蒸馏、流式推理整条链路，而开源社区一直缺一套能跑通的端到端 recipe
本文贡献：minWM：全栈开源框架，把现成的双向 T2V/TI2V 视频基础模型转成「相机可控 + 少步自回归」的世界模型。先对双向扩散做相机控制微调，再用 Causal Forcing / Causal Forcing++ 流程（AR diffusion 训练 + causal ODE/consistency 蒸馏 + 非对称 DMD）蒸成少步自回归生成器做低延迟 rollout。框架模块化、架构可扩展：在 Wan2.1-T2V-1.3B（cross-attention 条件注入）和 HY1.5-TI2V-8B（MMDiT）上分别实例化，还能把 HY-WorldPlay 等已有世界模型适配到新数据分布、训练配方与延迟目标
实验效果：不止放出可运行脚本、checkpoint、文档和推理代码，还给出相机轨迹质量、可控性训练步数、最小 batch size 等实战 ablation——是这个方向少见的「能跑起来、可复现、可扩展」的实时交互视频世界模型配方 (github.com/shengshu-ai/minWM)
批判点评：「全栈开源 + 跨两种主流架构（Wan2.1 cross-attn / HY1.5 MMDiT）实例化 + 可适配已有世界模型」三点让它成为这个方向稀缺的工程基建，对想做实时交互视频的团队意义重大。但框架 / recipe 类工作的核心价值在工程完整度而非单点创新；Causal Forcing++ 与非对称 DMD 联训的稳定性、长 rollout 的累积漂移控制还可以披露更多

2. NAVA：原生音视频对齐联合生成6.3B

Native Audio-Visual Alignment for Generation | 百度 ERNIE | arXiv:2605.30073

关键词：音视频联合生成·原生对齐·MMDiT·音色可控·百度

前序问题：联合音视频生成要做到时序同步 + 语义连贯，但现有开源方案要么走「双塔 + 后验对齐」（弱化细粒度音视频协同演化），要么走「三模态全统一」（把语义条件和底层同步耦死在一起）——两条路线都有结构性缺陷
本文贡献：NAVA：context-conditioned 的原生音视频对齐框架。先在专用交互空间建立音视频对应关系，再用外部 context 条件化联合去噪。用 Align-then-Fuse MMDiT 架构实例化，从「模态感知的音视频对齐」平滑过渡到「模态共享的联合去噪」；并提出 Timbre-in-Context Conditioning，把参考音色线索关联到对应语音片段，实现可控语音音色
实验效果：在 Verse-Bench 和 Seed-TTS 上配合用户研究表明：仅用 6.3B 参数即取得更优视频质量、精确的音视频同步、有竞争力的音频质量，以及更强的参考音色可控性
批判点评：「先对齐后融合」而非「一上来全统一」的设计直击双塔 / 三模态两条路线的痛点，6.3B 拿下多项指标性价比很高；Timbre-in-Context 把音色可控做进 context 是干净的设计。但「专用交互空间 + 联合去噪」的两阶段是否引入额外训练复杂度、对更长音视频的扩展性仍需观察

3. Gamma-World：多智能体生成式世界模型

Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players | NVIDIA, 清华大学 | arXiv:2605.28816

关键词：多智能体·世界模型·RoPE·稀疏注意力·NVIDIA

前序问题：交互式视频世界模型大多聚焦单 agent（从单一控制信号生成未来观测），但很多生成环境需要多 agent 同时在共享空间行动（多玩家 / 机器人 / 具身体）。扩到多 agent 需要原则性设计：各 agent 独立可控、排列对称、推理高效，同时跨时间和视角保持一致
本文贡献：生成式多智能体世界模型。提出 Simplex Rotary Agent Encoding：3D RoPE 的无参扩展，把 agent 表示成旋转角空间里正单纯形的顶点，给每个 agent 不同相位又保持排列等价——无需学习 per-slot 身份或固定排序即可扩展 agent 身份；提出 Sparse Hub Attention：用可学习 hub token 中介跨 agent 交互，把跨 agent 注意力从二次降到线性。再把全上下文扩散 teacher 蒸成因果 student，带 KV cache 顺序生成时间块，实现 24FPS 的动作响应生成
实验效果：多人虚拟环境实验中，在视频保真度、动作可控性、agent 间一致性上超越 slot-based 和 dense-attention 基线，且无需额外训练即可从 2 玩家泛化到 4 玩家
批判点评：「用正单纯形顶点的旋转相位编码 agent 身份」是极优雅的无参设计——天然排列对称又可扩展；Sparse Hub Attention 把多 agent 注意力线性化是务实工程；从 2 人零样本泛化到 4 人很有说服力。但 hub token 数量与 agent 数的可扩展上限、长时序多 agent 一致性的退化曲线需要更大规模验证

4. AdaState：流式视频生成自演化锚点

AdaState: Self-Evolving Anchors for Streaming Video Generation | 弗吉尼亚理工 Virginia Tech | arXiv:2605.30349

关键词：流式视频生成·自回归扩散·自演化锚点·KV cache·时间相对

前序问题：自回归视频扩散逐块生成、每块条件于已生成内容，但模型结构性地「锚定在第一帧」：首帧 KV 占据注意力 cache 的特权位置、作为整段主场景参考。作为最干净无误差的位置，这个锚点吸走过多注意力，压制视频动态、把场景构图锁死在初始视角，结果是「时间上很浅」的视频——运动、镜头、场景推进都被静态一致性压制
本文贡献：用「自适应 state」替换静态锚点——一个隐 latent，模型每块和内容一起去噪但从不渲染。模型不再参考冻结的首帧，而是每步通过同时关注「前一 state + 当前内容」自己生成场景锚点，产出随生成内容演化的参考。不同于编码绝对时间的标准视频生成，本方法把时间当相对量：每个生成步看到相同的位置结构、state transition 每块都相同。这给生成过程引入了递归——去噪即 transition 函数，KV cache 即载体，无需任何外部模块
实验效果：实验表明自适应 state 大幅改善视频动态，让生成视频内出现更丰富的运动和更自然的场景推进
批判点评：「首帧 KV 锚点偷走注意力 → 视频时间上变浅」的诊断非常精准，用「可去噪但不渲染的隐 state」做自演化锚点是优雅的零外部模块方案，把时间从绝对改成相对的视角很有启发。但「丰富运动」与「时序一致性」本就是 trade-off，自演化锚点会不会牺牲长程一致性需要定量；缺与显式 memory / anchor 方法的正面对比

5. YoCausal：视频生成因果性认知基准

YoCausal: How Far is Video Generation from World Model? A Causality Perspective | 上海 AI Lab, 阳明交大 NYCU | arXiv:2605.30346

关键词：视频生成·世界模型·因果性·评测基准·上海AILab

前序问题：视频扩散模型（VDM）正走向世界模型，关键问题是：它们真懂因果，还是只过拟合统计时序模式？现有基准大多依赖合成数据，受 sim-to-real gap 限制真实世界泛化
本文贡献：YoCausal：受认知科学「违反预期(VoE)」范式启发的两级基准。零成本地把真实世界视频时序反转，作为天然反事实样本，建立可任意扩展的评测协议。Level 1 提出 Reverse Surprise Index (RSI)，用去噪 loss 量化「时间箭头」感知；Level 2 提出 Causality Cognition Index (CCI)，用 VLM 把数据分层成因果 / 非因果子集，把真正的因果推理从时序偏置中解耦
实验效果：评测 13 个 SOTA VDM 发现：感知到时间箭头并不意味着理解因果，且相对人类级因果认知仍存在显著差距
批判点评：「时序反转真实视频做零成本反事实」是极聪明的基准构造，RSI / CCI 两级指标把「时间感知」与「因果认知」分层解耦的思路很清晰，给「视频生成→世界模型」泼了必要的冷水。但用去噪 loss 衡量「惊讶度」是否完全等价于因果理解仍可争议；VLM 分层本身的可靠性会传导到 CCI 的结论

6. GenClaw：代码驱动的智能体图像生成

GenClaw: Code-Driven Agentic Image Generation | 中山大学 | arXiv:2605.30248

关键词：图像生成·智能体·代码驱动·可控生成·中山大学

前序问题：图像生成已从「文本条件像素合成」走向「具备视觉理解 + 工具调用的多模态 agent」，但现有 agent 仍受制于底层黑盒图像模型——工作流困在「为优化生成反复改 prompt」的循环里，没有直接操控画布的机制。LLM 作为精确视觉构建「画笔」的潜力基本未被开发
本文贡献：GenClaw：代码驱动的智能体图像生成范式，让 agent 像人类艺术家一样创作——先构思、再起草、最后上色。agent 先通过搜索和推理构建概念知识与上下文；再用代码（SVG / HTML / Three.js）渲染可执行的视觉草图；最后用图像生成模型补充纹理、材质、真实感。代码在此作为可控的中间画布，桥接语言推理与像素合成，把程序逻辑与生成模型的视觉表现力无缝整合
实验效果：把图像生成从黑盒范式转成类似真实人类创作的分阶段过程，朝着高度可控、可解释的视觉生成系统迈出一步
批判点评：「代码作中间画布」是把可控性问题转译成「可执行草图」的聪明思路——SVG / HTML / Three.js 草图天然结构化、可精确编辑，比反复改 prompt 强太多；构思-起草-上色的拟人流程也很有叙事性。但代码草图能表达的视觉复杂度有上限（精细写实场景难用 SVG 起草），最终仍依赖底层生成模型的「上色」能力；端到端延迟和失败率需要量化

7. GPIC：28万亿像素许可级图像语料

GPIC: A Giant Permissive Image Corpus for Visual Generation | 斯坦福李飞飞团队 | arXiv:2605.30341

关键词：图像语料·视觉生成·许可数据集·flow matching·斯坦福

前序问题：研究可扩展的视觉生成方法需要大、可获取、稳定的数据集，但开放且许可清晰的大规模图像语料长期稀缺
本文贡献：GPIC：约 28 万亿像素的巨型许可图像语料。由 SOTA 视觉语言模型为多样互联网图像生成 caption，含 1 亿训练 + 20 万验证 + 100 万测试样本。所有图像均「研究 + 商用」许可宽松，经安全过滤、去重，集中托管于 Hugging Face。提供生成建模的 benchmark 协议，并给出像素空间 flow matching 的参考 baseline
实验效果：数据集、benchmark、模型全部开放（stanford-vision-lab/gpic）；为视觉生成提供「大规模 + 许可清晰 + 稳定可复现」的公共底座
批判点评：「许可宽松 + 商用可用 + 安全去重 + 集中托管」直击当前生成数据集的版权 / 可复现痛点——这种基础设施工作对整个社区的长尾价值很高，28 万亿像素 + 完整 benchmark + baseline 让它即插即用。但「VLM 自动 caption」的质量上限会限制可训出的文本对齐能力；与 LAION 类已有大语料的去重重叠和质量差异需要更透明

8. Parametric Memory Law：LoRA参数记忆的幂律定律

How LoRA Remembers? A Parametric Memory Law for LLM Finetuning | 浙江大学, 阿里 | arXiv:2605.30260

关键词：LoRA·参数记忆·幂律·LLM微调·浙大

前序问题：LLM 需持续学习更新知识，LoRA 被广泛用于记忆更新，但现有研究多靠定性下游评测，对「精确参数记忆」的定量容量极限和底层动力学几乎没探索
本文贡献：用 LoRA 作为受控的记忆容量探针，在 latent 空间系统量化精确参数记忆。提出 Parametric Memory Law：把 loss 下降 ΔL 与有效参数量、序列长度联系起来的稳健幂律。token 级细粒度分析揭示确定性相变——证明预测概率 p>0.5 是 greedy decoding 下逐字召回的充分条件。据此提出 MemFT：阈值引导的优化策略，把训练预算动态重分配到次阈值 token
实验效果：实证表明 MemFT 能提升记忆保真度和效率；为「LoRA 到底记住多少、怎么记」给出可量化的定律而非定性结论 (github.com/zjunlp/ParametricMemoryLaw)
批判点评：「用 LoRA 当记忆容量探针 + 找出幂律 + p>0.5 相变的充分条件」是把模糊的「记忆能力」做成可量化科学定律的扎实工作，MemFT 把定律反哺成实际训练策略形成漂亮闭环。但幂律的普适性需要跨更多模型规模 / 任务验证；「逐字召回」的记忆与「泛化知识」的记忆是两回事，定律对后者的适用边界要谨慎

趋势观察

视频生成正在「世界模型化」：从出片段走向实时交互、多智能体、可因果 — minWM 把双向 T2V/TI2V 蒸成相机可控的少步自回归世界模型并全栈开源；Gamma-World 用单纯形旋转编码 + 稀疏 hub 注意力把世界模型从单 agent 扩到多 agent（2→4 人零样本泛化、24FPS）；YoCausal 用时序反转真实视频做反事实基准，量出 13 个 SOTA VDM 距离「真懂因果」仍有显著差距——视频生成的下一站从「画面好」转向「能交互、有因果、多主体」
自回归流式视频生成开始解决「时间太浅」的结构病 — AdaState 诊断出首帧 KV 锚点偷走注意力、把场景锁死在初始视角，改用「可去噪但不渲染的自演化隐 state」做相对时间锚点，显著改善运动和场景推进——流式视频生成从「保一致」转向「敢动起来」
音视频联合生成走向「先对齐后融合」的原生范式 — NAVA 指出双塔后验对齐弱化协同、三模态全统一耦合语义与同步两条路都有缺陷，提出 Align-then-Fuse MMDiT 先在交互空间建音视频对应、再 context 条件化联合去噪，6.3B 拿下多项 SOTA + 可控音色——音视频生成的架构共识正在形成
图像生成的可控性升级：代码做中间画布、许可数据做底座 — GenClaw 用 SVG/HTML/Three.js 可执行草图作中间画布，把「反复改 prompt」换成「构思-起草-上色」的拟人可控流程；GPIC 放出 28 万亿像素、研究+商用许可宽松、安全去重的图像语料 + benchmark + flow matching baseline——可控生成的「方法」和「数据底座」被同时推进
大模型记忆与微调走向「可量化定律」 — How LoRA Remembers 用 LoRA 当记忆探针，给出 loss 下降 ΔL 与有效参数 / 序列长度的 Parametric Memory Law，发现 p>0.5 是逐字召回的充分条件，并据此提出阈值引导的 MemFT——把「LoRA 记多少」从定性评测推到可解析的幂律

人工智能炼丹君整理 | 2026-05-29