标签搜索

Jefxiong

累计撰写 68 篇文章
累计收到 8 条评论

首页
/
AIGC
/
正文

AIGC

AIGC 每日速读|2026-05-19|长视频生成FP4训推全栈LongLive-2.0

人工智能炼丹君

2026-05-19 / 0 评论 / 11 阅读 / 正在检测是否收录...

05/19

今日 AIGC 论文速览

今日共 13 篇 · 长视频生成与训推优化 2 篇 · 扩散推理加速与量化 4 篇 · 视频编辑与实时特效 2 篇 · 统一多模态生成 1 篇 · 音频生成与综述 2 篇 · 扩散 RL 后训练 2 篇

重点论文标题列表

LongLive-2.0：NVFP4 长视频生成训推全栈提速 2.15×
TACache：Rectified Flow 训练免训练加速 4.14×
Aurora：VLM Agent 把模糊指令拆解给视频编辑器
Lance：原生统一图像视频理解生成 MoE 模型
StreamingEffect：单 H200 实时 720p 人像视频特效

今日论文速览

1. LongLive-2.0：NVFP4 长视频生成训推全栈提速 2.15×

LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation | NVIDIA | arXiv:2605.18739

关键词：长视频生成·NVFP4·序列并行·AR 视频扩散·Song Han

前序问题：长视频生成的训练和推理同时卡在显存和速度上：现有 Self-Forcing 系列依赖 ODE 初始化 + DMD 蒸馏，流程冗长；推理端把 KV cache 与计算精度压不下去，使得分钟级、多镜头、可交互的 AR 视频生成在大模型规模下难以落地
本文贡献：提出 LongLive-2.0：首个 NVFP4 端到端长视频生成训练 + 推理基础设施。(1) 训练侧的 Balanced SP——把 teacher-forcing 布局与序列并行（SP）协同设计，在每个 rank 上配对干净历史 + 噪声目标的时间块，并搭配 SP-aware 分块 VAE 编码；(2) 直接把扩散模型微调成长时多镜头交互式 AR 模型，跳过 ODE 初始化 + DMD 蒸馏；(3) 推理侧 Blackwell 上跑 W4A4 NVFP4，KV cache 也量化到 NVFP4，配合异步流式 VAE 解码
实验效果：训练加速 2.15×、推理加速 1.84×；LongLive-2.0-5B 在保持 benchmark 强表现的同时达到 45.7 FPS 推理；可独立 LoRA 切换为 4 步 / 2 步实时生成模式，是首个面向长视频生成的 NVFP4 训推一体系统
批判点评：把 NVFP4 这种 Blackwell 新精度从推理推到训练全链路是工程级里程碑，5B 跑出 45.7 FPS 把长视频 AR 推到了实时门槛；但 NVFP4 对硬件的强绑定限制了非 Blackwell 集群的复现路径，量化 KV cache 在多镜头切换时的累积误差也值得长期追踪

2. TACache：Rectified Flow 训练免训练加速 4.14×

Accelerating Rectified Flow Models via Trajectory-Aware Caching | 上海交大, 军事科学院, 华为 | arXiv:2605.16789

关键词：Rectified Flow·训练-free 加速·缓存·正交分解·扩散推理

前序问题：扩散与 Rectified Flow 模型靠迭代评估速度场出图/出视频，计算昂贵；现有 cache 方法靠跳步加速，但粗略的近似在长跳步区间累积误差大，激进加速下质量明显劣化
本文贡献：提出 TACache（Trajectory-Aware Cache）训练-free 加速框架，遵循「先跳步后补偿」范式：对 RF 轨迹上离散速度加速度做正交分解（平行 + 正交残差），分离每步近似误差的幅值与方向来源；离线阶段用幅值 / 方向累积阈值生成跳步表，在线阶段结合样本历史正交方向重构被跳过的速度，无需额外模型评估
实验效果：在 BAGEL、FLUX.1-dev、Wan2.1-1.3B 上分别实现文生图 4.14×、文生视频 2.11× 加速；在所有 reference-based fidelity 指标上一致优于已有 cache 类方法
批判点评：「先跳步后补偿」+ 速度加速度正交分解，把 cache 类方法从经验调参推到了误差可控的工程范式；但分解效果对模型与数据集分布敏感，离线统计在 prompt 分布漂移时是否仍稳定，还需要更长尾的验证

3. Aurora：VLM Agent 把模糊指令拆解给视频编辑器

Aurora: Unified Video Editing with a Tool-Using Agent | 罗切斯特大学, Adobe | arXiv:2605.18748

关键词：视频编辑·VLM Agent·工具调用·统一扩散·欠规范请求

前序问题：现有统一视频编辑模型把文本、源视频、参考图喂进同一个 DiT 一把搞定替换 / 删除 / 风格 / 参考插入；设计很灵活，但默认用户已提供了 model-ready 的文本、参考图与空间锚定——真实请求里这些往往缺失
本文贡献：提出 Aurora：把工具增强 VLM agent 与统一视频扩散 transformer 配对——agent 把原始用户请求映射成对齐 transformer 条件通道的结构化编辑计划，先解决「文本和视觉欠规范」再生成；用监督数据训练完整编辑规划 + 参考图选取，再用偏好对训练鲁棒工具调用与指令润色；并发布 AgentEdit-Bench 评估「欠规范用户请求」下的 agentic 视频编辑能力
实验效果：在 AgentEdit-Bench 与两个现有视频编辑 benchmark 上，Aurora 显著超越纯指令 baseline；VLM agent 还能迁移到其他冻结的视频编辑模型，作为通用前置规划层
批判点评：把视频编辑里「用户输入欠规范」这一真实痛点显式拆解给 VLM agent 处理，是务实且可迁移的范式；但 agent 错误规划带来的级联编辑错误尚未充分量化，agent + DiT 的端到端延迟也是落地前要解决的关键

4. Lance：原生统一图像视频理解生成 MoE 模型

Lance: Unified Multimodal Modeling by Multi-Task Synergy | 字节跳动 Intelligent Creation Lab | arXiv:2605.18678

关键词：统一多模态·MoE·双流架构·原生训练·图像视频生成

前序问题：统一多模态模型要么靠模型尺寸堆量、要么沿用图文为主的设计，在「图像 + 视频 × 理解 + 生成 + 编辑」的全格子上很难一并打通；理解和生成两条能力路径互相干扰，多模态 token 异质性也让位置编码难以兼顾
本文贡献：提出 Lance：原生轻量级统一多模态模型，从零训练，采用「双流 MoE + 共享交错多模态序列」架构——联合上下文学习同时把理解与生成的能力路径解耦；引入 modality-aware RoPE 缓解异质视觉 token 的相互干扰；训练采用分阶段多任务范式，配合自适应数据调度同时强化语义理解与视觉生成
实验效果：图像和视频生成上大幅超越现有开源统一模型，同时保持强多模态理解能力，证明统一不必靠堆参数，「能力路径解耦」是更可持续的统一范式
批判点评：「统一上下文 + 解耦能力路径」的设计直击当前统一模型最大痛点：什么都做但什么都不极致；不过双流 MoE 的训练稳定性、与闭源旗舰模型的差距，以及在更长视频上的可扩展性仍待时间检验

5. StreamingEffect：单 H200 实时 720p 人像视频特效

StreamingEffect: Real-Time Human-Centric Video Effect Generation | 新加坡国立 Show Lab | arXiv:2605.17019

关键词：视频编辑·实时流式·人像特效·因果蒸馏·VideoEffect-130K

前序问题：电商直播、娱乐、Vlog 等场景需要实时人像视频特效，但缺数据、缺可部署的编辑模型；视频编辑的高效蒸馏几乎没人做，现有加速大多围绕文生视频，无法保住身份、背景与时序一致性
本文贡献：提出 StreamingEffect：上下文式视频编辑架构 + 因果 AR 学生蒸馏，把采样从 50 步压到 4 步；支持关键帧控制——可以在线注入参考特效帧并沿流传播，实现交互式编辑；同时构建 VideoEffect-130K 数据集——70K 特效视频 + 60K 编辑视频、600 类特效，是已知最大的人像视频特效数据集
实验效果：在单张 H200 GPU 上实现实时高质量 720p 视频编辑，数据集和方法共同填补了「人像视频特效实时编辑」的开源生态空白
批判点评：把视频编辑显式当作「实时流式 + 关键帧可控」问题来解，配套 130K 高质量数据是最大的工程贡献；但 600 类特效的覆盖度、4 步学生在长流式生成下身份漂移、以及 H200 之外的部署门槛，是产品化关键考验

6. MeanFlow-LSE：MeanFlow 蒸馏推到 80B 工业级模型

Stabilizing, Scaling & Enhancing MeanFlow for Large-scale Diffusion Distillation | 西电, 腾讯混元 | arXiv:2605.17834

关键词：MeanFlow·扩散蒸馏·大规模训练·HunyuanImage·少步生成

前序问题：MeanFlow 因公式简洁、表现强劲在少步蒸馏受关注，但优化目标不稳定 + 「mean-seeking bias」限制了它在大规模工业模型上的应用，蒸馏到 12B / 80B 级别经常训练崩溃或质量塌陷
本文贡献：(1) 引入 warm-up 技术，用离散解替代原 MeanFlow 微分解，避免 stop-gradient 项含未训好模型导致的训练崩溃；等模型对平均速度场有初步拟合后再切回微分解继续精炼；(2) 引入轨迹分布对齐作为辅助目标，缓解极少步推理下复杂目标分布上的 mean-seeking bias，让学生模型轨迹分布贴近教师
实验效果：在 FLUX.1-dev（12B）上超越现有蒸馏方法；推到 80B 的 SOTA 工业模型 HunyuanImage 3.0，依然展现出鲁棒泛化与强表现，是首次把 MeanFlow 蒸馏验证到 80B 量级
批判点评：warm-up + 轨迹分布对齐两步组合直击 MeanFlow 在大模型上的两大顽疾，工程上意义重大；但 warm-up 阶段 / 切换时机依赖经验设定，对不同 backbone 的迁移性还需更系统消融

7. I2V-Survey：图生视频扩散首份系统综述

Image-to-Video Diffusion: From Foundations to Open Frontiers | 港城大, 格里菲斯大学等 | arXiv:2605.17248

关键词：图生视频·扩散综述·I2V·taxonomy·开放挑战

前序问题：图生视频（I2V）已成为生成模型的核心方向，对内容一致性、身份保留与运动连贯性的要求都比通用视频生成更严；但现有论文大多把 I2V 当作通用视频生成的子话题，缺乏专门的 taxonomy 与系统分析
本文贡献：把扩散 I2V 单独立题，系统梳理任务定义、模型架构、数据集、评测指标，并按架构和训练范式给出 taxonomy；进一步抽取 4 个核心设计——条件编码 / 时序建模 / 噪声先验 / 时空上采样，配合典型应用与开放挑战
实验效果：为 I2V 这一独立子方向提供首份结构化综述，给出可复用的 4 大设计轴和应用-挑战双视角，便于研究者和工程团队系统理解技术路径
批判点评：把 I2V 从「视频生成的角落」抬到独立子方向，「4 个核心设计 + taxonomy」是清晰可用的索引框架；但综述截止时间内未能覆盖最新一波因果 / 实时 I2V，未来需要持续更新追踪

8. WavFlow：原始波形空间直生高保真音频

WavFlow: Audio Generation in Waveform Space | Meta AI, 东北大学 | arXiv:2605.18749

关键词：音频生成·波形空间·Flow Matching·V2A·T2A

前序问题：现代音频生成几乎都依赖潜空间压缩，引入额外复杂度并潜在丢失信息；但波形空间维度极高、能量分布稀疏，让扩散模型直接在波形上建模长期失败
本文贡献：提出 WavFlow：直接在原始波形空间生成高保真音频，无中间表示。通过 waveform patchify 把音频重塑为 2D token grid，引入 amplitude lifting 对齐信号尺度，使 flow matching 中的 x-prediction 优化稳定；并构建自动化数据流水线，整理 500 万视频-文本-音频三元组，从零学习细粒度声学模式
实验效果：在视频转音频 VGGSound 上取得 FD_PaSST 59.98 / IS_PANNs 17.40 / DeSync 0.44；在文生音频 AudioCaps 上 FD_PANNs 10.63 / IS_PANNs 12.62，与已有潜空间方法持平或超越，证明中间压缩并非高质量音频合成的必要条件
批判点评：「不要 latent，直接干波形」是颇有勇气的反潮流路线，patchify + amplitude lifting 是让 flow 在波形上稳的关键工程；但波形 flow matching 的训练成本与采样开销比 latent 方案高得多，工业级落地需要更激进的加速

9. TAPE：时序感知 token 剪枝免训加速视频扩散

Temporal Aware Pruning for Efficient Diffusion-based Video Generation | 匹兹堡大学, IIT, Rutgers, Microsoft AI | arXiv:2605.17837

关键词：视频扩散·token 剪枝·训练-free 加速·时序一致性·ViT

前序问题：视频扩散 ViT 架构出视频质量高，但长时空序列上的注意力计算极贵；已有 token 剪枝多基于 attention、按帧独立操作，难以保住跨帧时序连贯，naive 应用会产生背景不稳、闪烁、画质下降
本文贡献：提出 TAPE 训练-free 时序感知剪枝：(i) 时序平滑对齐相邻帧的 token 重要性，抑制选择抖动；(ii) 在选定层做 token 重选，使剪枝匹配各层的不同语义关注，避免误差在特定区域累积；(iii) 时间步级预算调度——早期噪声重的步骤激进剪、后期保真关键步骤放宽
实验效果：显著提速的同时保持高视觉保真度，超越前期 token reduction 方法；作为 plug-in 训练-free 加速，能直接套到现有视频扩散模型上
批判点评：把 token 剪枝从「每帧独立」拉回「时序感知」是补足视频域专属约束的正确方向，三项设计互相协同；但激进时间步预算调度对极长视频的累积误差、以及 ViT 之外架构的迁移性仍是开放问题

10. SafeDiffusion-R1：在线 GRPO + CLIP 引导奖励安全对齐

SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training | MBZUAI | arXiv:2605.18719

关键词：扩散安全·在线 RL·GRPO·CLIP 引导·内容审核

前序问题：扩散模型移除预训练中学到的不安全内容，现有方法要么需要昂贵的 unsafe-text 配 safe-image 监督数据，要么走离线 RL / SFT 在合成数据上训，灾难性遗忘严重，生成质量明显劣化，扩展性差
本文贡献：提出在线 RL 框架：在正负 prompt 上跑 GRPO；引入 steering reward 机制利用 CLIP 嵌入空间的固有性质——把文本表示推向正向安全方向、远离负向，无需为每个安全维度单独训 reward 模型；在线策略让模型从包括显式不安全 prompt 在内的多样请求中学习而不灾难性遗忘
实验效果：不当内容下降到 18.07%（vs SD v1.4 的 48.9%），裸露检测 15 vs baseline 646；GenEval 组合生成质量从 42.08% 提升到 47.83%；安全增益泛化到 7 类未见有害 prompt 类别
批判点评：把「安全对齐」从离线 SFT 推到在线 GRPO，叠加 CLIP 嵌入引导避开 reward 模型训练，工程友好且可扩展；但 CLIP 嵌入方向偏向、对抗性提示下 steering 的鲁棒性，仍需对抗压力测试持续追踪

11. CGPO：按 reward 方差自适应难度的文生图 RL

Curriculum Group Policy Optimization: Adaptive Sampling for Unleashing the Potential of Text-to-Image Generation | 北邮, 中国电信 TeleAI | arXiv:2605.17807

关键词：文生图·GRPO·课程学习·自适应采样·RL 对齐

前序问题：文生图 RL（特别是 GRPO 系）训练时统一采样策略忽视了样本难度与模型当前能力的匹配，训练效率低，模型常在已掌握或还远不能掌握的 prompt 上空转
本文贡献：提出 CGPO 自适应课程训练框架：每条 prompt 生成一组图像由 reward 模型打分，用组内 reward 方差作为「prompt 不一致性」的在线 proxy——方差高说明模型部分掌握但未稳定，正是最该多采的可学习 prompt，从而提高其采样概率；再用比例公平优化做类别校准，平衡多类别数据集的训练难度
实验效果：在 GenEval、T2I-CompBench++、DPG Bench 上一致提升生成性能，为 GRPO 类文生图 RL 提供可即插即用的课程化增强
批判点评：用 reward 方差当「可学习 prompt」proxy 是优雅且无需额外标注的设计；但 reward 模型本身的偏差会被该 proxy 放大，长期训练下需要监控 reward hacking

12. DiRotQ：PCA 旋转感知 W4A4 DiT 量化

DiRotQ: Rotation-Aware Quantization for 4-bit Diffusion Transformers | d-Matrix | arXiv:2605.16732

关键词：DiT·4-bit 量化·PCA 旋转·W4A4·FLUX

前序问题：DiT 出图质量 SOTA 但推理代价高；激进 PTQ 到 4-bit 能省算力却经常严重掉点；已有 smoothing / mixed precision / rotation / low-rank residual 等方法都只能部分缓解，与 FP16/BF16 仍有可见差距
本文贡献：提出 DiRotQ W4A4 PTQ 框架——通过 PCA 找到激活方差主成分所在的低秩子空间，对该子空间用更高精度保留，其余分量量化到 4-bit；推理时用校准得到的正交变换把激活旋转到 PCA 基，逆旋转离线融入权重；再叠加 GPTQ 的权重量化形成完整 W4A4 系统，并给出 Triton kernel 端到端加速
实验效果：在 PixArt-Σ MJHQ-30K 上取得 FID 15.9 / PSNR 19.1 dB，超越 SVDQuant（FID 18.9 / 17.6）；12B FLUX.1-dev 在单卡 RTX 4090 上显存降 2.1×，推理比 BF16 加速 2.3×；并首次提出 VLM-as-a-Judge 评测协议
批判点评：把 PCA 子空间高精度保留 + 离线融入权重的设计，把旋转量化做到了 W4A4 的较好均衡，落地友好；但 PCA 校准对长尾 prompt 的覆盖度、VLM-as-a-Judge 与人类偏好的对齐度，是后续要追踪的关键

13. SpectralProgressive：频谱先粗后细动态扩展分辨率

Spectral Progressive Diffusion for Efficient Image and Video Generation | Stanford | arXiv:2605.18736

关键词：频谱扩散·渐进分辨率·训练-free 加速·视频生成·去噪调度

前序问题：扩散模型在频域里隐式自回归生成——低频先出、高频后出；在噪声主导的早期对全分辨率做计算大量冗余，但目前没人把这一观察系统化用于推理加速
本文贡献：提出 Spectral Progressive Diffusion 通用框架——沿去噪轨迹渐进扩展分辨率；设计频谱噪声扩展机制，并从模型自身的功率谱推出最优分辨率调度；支持 training-free 加速和一种新的微调配方，进一步同时改善效率与质量
实验效果：在多个 SOTA 预训练图像和视频生成模型上获得显著加速，且画质保持；为预训练扩散模型提供一条「无需重训」的频谱渐进推理路线
批判点评：把扩散「频谱自回归」的隐式行为显式化为分辨率调度，思路清晰且与 cache 等加速正交；但频谱调度对噪声分布的假设强依赖训练分布，跨数据集与跨模态迁移性需更广验证

趋势观察

NVFP4 把长视频生成训推一体化推到实用门槛 — LongLive-2.0 把 NVFP4 从纯推理量化推到训练 + KV cache + 异步流式 VAE 解码全链路，5B 模型跑出 45.7 FPS——下一代视频生成基础设施开始与 Blackwell 硬件深度协同，长视频 AR 真正走向「可部署的实时」
扩散加速从 cache 推到「频谱 + 时序 + 量化」三路同时压榨 — TACache 从轨迹正交分解给跳步补偿、TAPE 从时序感知做 token 剪枝、SpectralProgressive 从频谱调度动态扩展分辨率、DiRotQ 从 PCA 旋转把 DiT 推到 W4A4——扩散推理优化第一次在「时间步 / 空间 token / 数值精度 / 频谱通道」四个轴上系统并进
视频编辑进入 agent 时代 — Aurora 把模糊用户请求交给 VLM agent 拆解成结构化编辑计划再喂给 DiT；StreamingEffect 配套 130K 数据 + 4 步因果蒸馏直接做实时人像特效——视频编辑从「模型一把吃下所有输入」转向「agent 解码意图 + 模型专注生成」
统一多模态从堆参数走向「能力路径解耦」 — Lance 用「双流 MoE + 共享交错序列」把理解与生成的能力路径显式解耦，配合 modality-aware RoPE 处理 token 异质性；证明轻量原生设计也能在「图像 + 视频 × 理解 + 生成 + 编辑」全格子上同时领先
扩散 RL 对齐从 reward 工程走向 reward 机制 — SafeDiffusion-R1 用 CLIP 嵌入做 steering reward 替代专门 reward 模型；CGPO 把 reward 方差当 prompt 难度 proxy 实现自适应采样——扩散 RL 后训练正在从「堆 reward 模型」转向「挖 reward 信号本身的几何」

人工智能炼丹君整理 | 2026-05-19

更多 AIGC 论文解读，关注微信公众号「人工智能炼丹君」

每日更新 · 论文精选 · 深度解读 · 技术脉络

微信搜索 人工智能炼丹君 或扫描下方二维码关注

扫码关注「人工智能炼丹君」

版权属于：人工智能炼丹君

本文链接： https://jefxiong.cn/index.php/archives/aigc-daily-papers-20260519.html

作品采用：《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 》许可协议授权

AIGC 每日速读|2026-06-02|微软实时流式数字人视频比肩大模型

AIGC 每日速读|2026-06-01|英伟达SANA单卡24FPS实时流式视频编辑

AIGC 每日速读|2026-05-29|生数科技minWM开源实时交互视频世界模型

AIGC 每日速读|2026-05-28|北大OSP-Next视频生成跨硬件加速

取消