AIGC 每日速读|2026-06-01|英伟达SANA单卡24FPS实时流式视频编辑

人工智能炼丹君
2026-06-01 / 0 评论 / 2 阅读 / 正在检测是否收录...

今日 AIGC 论文速览

今日共 8 篇 · 实时/高效视频生成 2 篇 · 视频世界模型 2 篇 · 统一多模态生成 2 篇 · 音频生成 2 篇

重点论文标题列表

  • SANA-Streaming(NVIDIA, MIT):单卡RTX5090实时流式视频编辑
  • LVSA(开源·JiusiServe):免训练长视频稀疏注意力3x提速
  • Lumos-Nexus(NUS, 阿里达摩院):高效统一视频生成推理驱动
  • DecMem(快手可灵, 港大 HKU):解耦记忆做分钟级一致世界生成
  • Light Interaction(浙江大学, NVIDIA):免训练交互视频世界模型加速


今日论文速览

1. SANA-Streaming:单卡RTX5090实时流式视频编辑

SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer | NVIDIA, MIT | arXiv:2605.30409

关键词:实时视频编辑·混合DiT·GDN线性注意力·RTX5090·英伟达

  • 前序问题:实时流式视频到视频编辑(V2V)对直播、游戏等交互应用至关重要,但它对时序一致性和推理吞吐都有极苛刻的要求——既要逐帧流式出片、又要保住跨帧一致,还得在消费级 GPU 上跑得动,前人一直没能同时满足
  • 本文贡献:SANA-Streaming:系统-算法协同设计的高分辨率实时流式视频编辑框架,三件套。(1) Hybrid DiT:在 SANA-Video 全线性骨干里均匀插入 5 个 softmax 注意力块 + 15 个高效 Gated DeltaNet(GDN) 块,用线性块保效率、softmax 块补局部建模与首块一致性,恒定显存 + 任意长度;(2) Cycle-Reverse 正则:用 flow matching 从生成内容反向预测源帧来强制语义一致,无需成对长编辑视频;(3) 面向 NVIDIA Blackwell(RTX 5090) 的系统协同:融合 GDN kernel + 混合精度量化(MPQ) 拉满 Tensor Core
  • 实验效果:单张 RTX 5090 上做到 1280×704 分辨率、24 端到端 FPS 的实时编辑,DiT 核心跑到 58 FPS;混合设计相比纯 softmax 变体长视频生成只需 5.56GB 显存、提速 3.7×;在时序连贯性和系统吞吐上都显著超越现有 SOTA
  • 批判点评:「混合线性/softmax DiT + 反向一致性正则 + 面向 5090 的量化协同」把实时视频编辑从「论文 demo」真正推到「消费级单卡可跑」,24FPS 端到端是非常硬的工程里程碑;恒定显存是流式落地的关键。但 2B 模型的编辑能力上限、复杂语义编辑的保真度、以及对 5090 之外硬件的可移植性还需观察;Cycle-Reverse 正则在大幅度编辑下的稳定性值得追踪

2. LVSA:免训练长视频稀疏注意力3x提速

LVSA: Training-Free Sparse Attention for Long Video Diffusion | 开源·JiusiServe | arXiv:2605.31057

关键词:长视频扩散·免训练稀疏注意力·旋转全局锚点·Wan/Hunyuan·昇腾NPU

  • 前序问题:稠密自注意力是长视频扩散推理的算力和质量双瓶颈:开销随序列长度二次增长,且超过训练长度后模型收敛到「近静态」——画面冻结、重复循环。现有方案要么太贵(要重训),要么在「提速 + 保质」上无法同时可扩展地满足
  • 本文贡献:LVSA(Long Video Sparse Attention):免训练、模型无关的 block-sparse 注意力,把结构化窗口模式 + 旋转全局锚点(rotating global anchors) 结合,去掉「固定网格偏置」这一长程时序伪影的根因;配 FlashInfer kernel 落地,且天生支持多 GPU(context-parallel + sparse ring KV 交换)。还提出 VQeval 评测工具,专门给「循环/冻结」失败正确扣分(这类失败在 VBench-Long 等评测里反而被奖励)
  • 实验效果:在 6× 训练长度下 Wan2.1-1.3B 提速 3.17×、Wan2.1-14B 提速 2.98×,HunyuanVideo 1.5 在 1.5× 长度提速 3.33×,还能让 HY1.5 跑到单卡原本 OOM 的 2× 长度;相比 RIFLEx/UltraViCo 分别快 2.41×/3.27×;在昇腾 NPU 上 Wan2.2-A14B/Wan2.1-1.3B 也提速 2.71×/3.24×。训练长度内质量中性、超长时质量为正
  • 批判点评:「旋转全局锚点 + 结构化窗口」去掉固定网格偏置,是把「超训练长度变冻结」这一长视频顽疾从根上治理的漂亮思路;免训练 + 多 GPU + 跨 GPU/NPU 的工程完整度很高,VQeval 还顺手补了「循环失败被错误奖励」的评测漏洞。但 block-sparse 的固定模式对极复杂运动场景是否丢细节需要看;锚点数量与长度的 scaling 关系、与可训练稀疏(VSA 类)的质量上限对比可更深入

3. Lumos-Nexus:高效统一视频生成推理驱动

Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models | NUS, 阿里达摩院 | arXiv:2605.31603

关键词:统一视频生成·频率桥接·推理驱动·VR-Bench·阿里达摩院

  • 前序问题:基于 connector 的统一视频模型在「指令理解驱动生成」上能力很强,但把一个大的高保真生成器塞进统一训练循环计算上不可行,从而限制了可达到的画质上限——理解强但画质受限
  • 本文贡献:Lumos-Nexus:训练高效的统一视频生成框架,两阶段设计。训练阶段只把一个轻量生成器与理解模块对齐,学会接收推理驱动的语义控制;推理阶段引入 Unified Progressive Frequency Bridging(UPFB),在共享 latent 空间把生成逐步交棒给高容量预训练生成器,做粗到细精修,从而在不牺牲推理质量的前提下产出高保真视频。还提出 VR-Bench 专门评测「把推断意图翻译成连贯且语义对齐视频」的能力
  • 实验效果:在 VBench 上视觉真实度与时序连贯性大幅提升,同时在 VR-Bench 上展现强推理驱动生成性能;用「轻量训练 + 推理时频率桥接交棒」绕开了「把大生成器塞进训练循环」的算力死结
  • 批判点评:「训练只对齐轻量生成器、推理时再用频率桥接交棒给大模型」是把统一模型「理解-生成」解耦的聪明工程,既省训练又保画质;VR-Bench 把「推理对齐」立成新评测维度很有意义。但 UPFB 的交棒边界(何时交、交多少)对画质/语义一致的影响、两个生成器在共享 latent 的兼容性细节需要更多 ablation

4. DecMem:解耦记忆做分钟级一致世界生成

DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory | 快手可灵, 港大 HKU | arXiv:2605.31336

关键词:世界模型·解耦记忆·长视频一致性·分钟级生成·快手可灵

  • 前序问题:视频生成模型推动了可控世界模型快速进展,但在长程推理下维持细粒度时空一致性仍是核心难题——朴素的可学习记忆架构有两大根本缺陷:计算低效 + 注意力发散(attention dispersion)
  • 本文贡献:DecMem:超越显式 3D 记忆和粗粒度帧级隐式建模,提出细粒度、可学习、可扩展的记忆。先系统分析注意力发散问题,再用解耦记忆架构:Sparse Global Memory 负责对全局历史的高效细粒度访问,Anchored Local Memory 负责稳定高质量的外推。两者解耦,分别解决「效率」和「外推稳定」
  • 实验效果:大量实验显著超越当前 SOTA;通过精确高效的长期记忆 + 更强外推能力,DecMem 实现分钟级、高保真、高一致的可控长视频生成
  • 批判点评:把「记忆」拆成 Sparse Global(管全局访问效率)+ Anchored Local(管外推稳定)两条解耦通路,直击长视频记忆「又要全又要稳还要快」的三难,分钟级一致是世界模型很硬的指标。但解耦记忆的额外参数/显存开销、Sparse Global 的检索精度上限、以及与显式 3D 记忆在强几何一致场景的对比可更充分

5. Light Interaction:免训练交互视频世界模型加速

Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models | 浙江大学, NVIDIA | arXiv:2605.31158

关键词:交互世界模型·免训练加速·自适应计算·3D稀疏注意力·浙大

  • 前序问题:交互式视频世界模型逐块生成、响应用户控制的相机运动(实时游戏模拟、虚拟场景漫游、具身 AI 训练),但扩到长交互轨迹代价极高:上下文记忆增长、注意力二次复杂度、反复去噪步骤
  • 本文贡献:Light Interaction:免训练的交互式视频世界模型推理加速框架。核心洞察是「交互天然带来轨迹相关的自适应计算」——新探索时检索到的空间记忆可丢弃、时序上下文可按局部 latent 动态调整、相机重访熟悉区域时早期步输出可复用。据此组合自适应上下文管理 + 去噪缓存加速 + 软硬协同的 3D block-sparse 注意力(融合 Triton kernel)
  • 实验效果:在 HY-WorldPlay 和 Matrix-Game-3.0 上无需重训即取得最高 2.59× 提速,同时保持有竞争力的视觉质量
  • 批判点评:「交互轨迹本身就提供了该算多少的信号」是很锐利的洞察——重访可复用、新探索可丢记忆,把自适应计算和交互语义绑定,免训练即插即用对落地友好。但收益高度依赖轨迹的「重访比例」,在持续探索新场景的轨迹上加速会打折;3D block-sparse 的质量损失边界、与 minWM 类自回归蒸馏路线的组合潜力值得探索

6. Representation Forcing:去VAE瓶颈的统一多模态

Representation Forcing for Bottleneck-Free Unified Multimodal Models | 港大 HKU, 字节 Seed | arXiv:2605.31604

关键词:统一多模态·去VAE·表征强制·像素空间生成·字节Seed

  • 前序问题:统一多模态模型(UMM)想用单一模型同时做感知和生成,但现有 UMM 仍依赖一个冻结、单独预训练的 VAE 做图像生成,构成结构性瓶颈;而直接去掉 VAE 又会带来质量缺口——模型得从原始像素同时学高层结构和底层细节
  • 本文贡献:Representation Forcing(RF):让「表征预测」成为模型的原生能力来弥合这一缺口。具体是强制 decoder 在出像素前先自回归预测视觉表征作为中间 token,这些 token 留在 context 里、在同一 backbone 内引导像素扩散。把表征从「感知的输出」变成「生成的目标」,从而彻底不需要任何外部生成式 latent 空间
  • 实验效果:RF 对理解和生成双双有益:图像生成上,像素空间 + RF 的模型匹配 SOTA 的 VAE 版统一模型;图像理解上,像素空间 RF 普遍优于其 VAE 版变体——朝着端到端、无瓶颈的 UMM 迈出有效一步
  • 批判点评:「先自回归预测视觉表征 token 再扩散出像素」把外挂 VAE 的结构瓶颈内化成模型原生能力,是统一模型「去外部 latent」方向很干净的解法,且理解/生成同时受益说明表征-生成共享是对的。但自回归预测表征 token 引入的推理开销、表征 token 的设计对不同分辨率/模态的可扩展性、以及相比强 VAE 版在超高保真上的差距需要更多验证

7. SwanSphere:全景视频流式生成空间音频

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer | 浙江大学 | arXiv:2605.30940

关键词:空间音频·流式生成·自回归扩散·全景视频·浙大

  • 前序问题:实时准确的空间音频生成对沉浸式体验至关重要,但现有空间音频合成技术常受困于「生成质量 vs 高推理延迟」的取舍,且难以从多模态输入中捕获精确的空间信息
  • 本文贡献:SwanSphere:从全景视频 + 文本提示生成高保真空间音频的统一流式框架。三大贡献:(1) 因果自回归扩散 transformer 架构,支持流式高质量空间音频生成;(2) Spatial Video-Audio Contrastive(SVAC) 对比学习把视频编码器对齐到声学域,再用多目标在线直接偏好优化(ODPO) 增强空间感知与多模态空间音频合成的鲁棒性;(3) 针对当前空间音频数据稀缺,开发自动标注 pipeline 生成详细空间 caption
  • 实验效果:在 video-to-spatial 和 text-to-spatial 两类空间音频生成任务上均取得更优性能 (demo swanaigc.github.io)
  • 批判点评:「因果 AR 扩散做流式 + SVAC 跨模态对齐 + ODPO 偏好优化 + 自动空间标注」一套组合直击空间音频「质量/延迟/数据」三重痛点,从全景视频生成空间音频是 VR/沉浸式应用很实在的能力,与同组 SwanVoice 一道补齐音频生成的空间维度。但空间音频评测主观性强、客观指标尚不统一;ODPO 的奖励设计与全景视频的空间精度上限还需更多披露

8. SwanVoice:长篇零样本对话语音合成

SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue | 浙江大学, 字节 | arXiv:2605.30993

关键词:零样本TTS·长篇对话·flow-matching·DiffusionNFT·浙大

  • 前序问题:零样本 TTS 在单说话人合成上已大幅进步,但富有表现力的长篇多说话人对话仍很难。常见做法是用独白 TTS 逐句合成再拼接——增加推理成本,且常破坏跨轮次的声学一致性、对话连贯性和情感连续性。近期对话 TTS 仍难同时兼顾表现力一致、可控说话人切换和独白质量
  • 本文贡献:SwanData-Speech + SwanVoice。数据侧用 Swan Forced Aligner 做停顿感知的词级对齐、RobustMegaTTS3 处理发音困难样本,从野外音频构建独白与对话语料。SwanVoice 是 1–4 人零样本 TTS:25Hz VAE + 带停顿符号与拼音替换的原始文本条件 + 带说话人轮次条件的 flow-matching DiT;训练从独白起步,经混合与真实对话数据,再用 DiffusionNFT 后训练 + 音素级和说话人相似度奖励
  • 实验效果:在 SwanBench-Speech 上,独白与对话设置下的丰富度与层次分都高于所有评测的开源基线,内容准确率仍是主要限制 (demo swanaigc.github.io)
  • 批判点评:把长篇对话 TTS 从「逐句独白拼接」升级成端到端建模,flow-matching DiT + 说话人轮次条件 + DiffusionNFT 后训练这套组合很完整,停顿感知对齐的数据工程是务实加分项。但作者自承内容准确率(WER/CER) 仍是短板,说明表现力和保真度的 trade-off 还在;25Hz 低帧率 VAE 在高保真音质上的天花板、4 人以上对话的可扩展性需要继续看

趋势观察

  1. 实时/高效视频生成进入「系统-算法协同」深水区 — SANA-Streaming 用混合 DiT(softmax + GDN 线性)+ Cycle-Reverse 正则 + 面向 RTX5090 的混合精度量化,在单张消费级 GPU 做到 1280×704、24 端到端 FPS 的实时流式视频编辑;LVSA 免训练 block-sparse + 旋转全局锚点,把 Wan2.1/HunyuanVideo 长视频推理提速最高 3.3×、还跨 GPU/NPU——视频生成的「实时化」正从算法和系统两端被同时撬动
  2. 视频世界模型的两大瓶颈——长程一致性与交互推理成本——被正面攻坚 — DecMem 用 Sparse Global + Anchored Local 解耦记忆,把可控世界生成推到分钟级一致;Light Interaction 抓住「交互天然带来轨迹相关的自适应计算」,免训练把 HY-WorldPlay/Matrix-Game-3.0 推理加速 2.59×——世界模型从「能生成」转向「长得住、跑得起」
  3. 统一多模态正在拆掉「外挂 VAE」这块结构性瓶颈 — Representation Forcing 让 decoder 先自回归预测视觉表征作为中间 token、再在同一 backbone 内引导像素扩散,像素空间模型即可匹配 VAE 版统一模型且理解更强;Lumos-Nexus 用渐进频率桥接把生成交棒给高容量预训练生成器、在共享 latent 做粗到细——统一模型在「去外部 latent」和「高保真」两条线同时推进
  4. 推理驱动 / 可控成为视频生成的新评测维度 — Lumos-Nexus 提出 VR-Bench 专测「把推理意图翻译成连贯视频」的能力;视频生成的评测从「画质 + 时序」扩展到「推理对齐」——可控性的内涵正在变深,生成模型被要求「不仅画得好,还要想得对」
  5. 音频生成从「单声道说话」走向「长篇对话 + 空间声场」 — SwanVoice 用 25Hz VAE + flow-matching DiT + DiffusionNFT 后训练做 1–4 人长篇零样本对话 TTS,富有表现力且说话人切换可控;SwanSphere 用因果自回归扩散 + SVAC 跨模态对齐 + ODPO,从全景视频/文本流式生成高保真空间音频——音频生成正在「对话连贯性」和「空间沉浸感」两个维度同时进化,补齐视觉生成之外的听觉一环

人工智能炼丹君 整理 | 2026-06-01


更多 AIGC 论文解读,关注微信公众号「人工智能炼丹君」

每日更新 · 论文精选 · 深度解读 · 技术脉络

微信搜索 人工智能炼丹君 或扫描下方二维码关注

扫码关注「人工智能炼丹君」

0

评论 (0)

取消
粤ICP备2021042327号