标签搜索

Jefxiong

累计撰写 68 篇文章
累计收到 8 条评论

首页
/
AIGC
/
正文

AIGC

AIGC 每日速读|2026-05-28|北大OSP-Next视频生成跨硬件加速

人工智能炼丹君

2026-05-28 / 0 评论 / 13 阅读 / 正在检测是否收录...

05/28

今日 AIGC 论文速览

今日共 11 篇 · 视频生成全栈加速 4 篇 · 视频生成新能力 2 篇 · 音频统一生成 2 篇 · 语音合成与编辑 2 篇 · 扩散模型对齐 1 篇

重点论文标题列表

OSP-Next：稀疏+量化+RL全栈视频生成1.64x
PARE：视频DiT结构剪枝+动态路由
⚡ Quantized Keys Steal Attention：KV缓存量化的Jensen偏差校正
SVDQuant-GPTQ：W4A4量化Wan2.2-I2V省内存59.3%
Dasheng AudioGen：首个文生混合音频场景统一模型

今日论文速览

1. OSP-Next：稀疏+量化+RL全栈视频生成1.64x

OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning | 北大袁粒组, 华为 | arXiv:2605.28691

关键词：视频生成·稀疏注意力·序列并行·HiF8·北大袁粒组

⚠️ 前序问题：Diffusion Transformer 在视频生成上已经能出好东西，但 full attention 二次开销死死压住效率。前人方案各做一段（稀疏 / 量化 / 蒸馏），缺一套能同时打通通信、计算、精度的端到端方案——尤其在「多卡序列并行」上和「跨国产硬件」上
本文贡献：OSP-Next：把稀疏注意力 + 序列并行 + 量化 + RL 后训练全栈打通的高效 T2V 框架。Skiparse-2D Attention 在空间维做 token-wise + group-wise 稀疏并保留 FlashAttention 兼容；提出 Sparse Sequence Parallelism (SSP) 用一次 All-to-All 切换稀疏模式，相比 Ulysses SP 通信量降低 75%；HiF8 量化支持 8-bit 联合训练 + 稀疏 fine-tune；Mix-GRPO 后训练弥补稀疏模型的质量回退
实验效果：VBench 总分 83.73% 超越 Wan2.1 基线；5 秒 720P/768P 设置下，H200 单 GPU 加速 1.64×，8 GPU 加速 1.52×；OSP-Next-HiF8 仅掉 0.4% 分数即可在国产昇腾 Ascend 950PR 上拿到 1.69× 和 2.27× 加速——是少见的同时验证国际/国产硬件的视频生成加速方案
批判点评：「稀疏注意力 + 序列并行 + 量化 + RL」四件套全栈打通，每一件单独不算新，但 SSP 把通信量直接打掉 75% 是非常硬的工程数字；跨 H200 + 昇腾的双硬件验证为国产硬件视频生成提供了稀缺的实证。但 Skiparse-2D 是 fixed pattern，对极复杂运动场景的可适配性需要看；Mix-GRPO 与 SSP 联训的稳定性细节披露还可以更多

2. PARE：视频DiT结构剪枝+动态路由

PARE: Pruning and Adaptive Routing for Efficient Video Generation | 港中文 CUHK, 上海 AI Lab, 悉尼大学 | arXiv:2605.27336

关键词：视频 DiT·结构剪枝·动态路由·Wan2.1-14B·上海 AI Lab

⚠️ 前序问题：Video DiT 又宽（block 宽）又深（架构深）又要多步采样，部署成本极高。前人通过压宽/压深/压步数减成本，但都 commit 到固定架构——不能针对单个输入或不同去噪阶段动态调整
本文贡献：PARE：把宽度剪枝和深度自适应路由联合做。宽度上观察到 attention head 自然分化为空间 vs 时序角色，设计区分两类的 importance scoring 避免「运动关键的 temporal head」被过早剪掉；深度上训轻量 router 以 denoising timestep + 视觉内容为条件，动态选择每步执行哪些 block——实现「按输入动态计算」而非静态删除。两阶段 progressive pipeline 先用蒸馏修复宽度剪枝的质量损失，再联合优化 student + router 解耦学习目标
实验效果：在 Wan2.1-14B 上对 I2V 和 T2V 都大幅降低每步算力且保住 VBench 各维度质量；与 step 蒸馏天然可组合进一步加速——把「静态剪枝」时代翻篇成「动态路由按需算」
批判点评：「区分空间/时序 head 重要性 + denoising-step 条件的 block router」两个洞察都直击 Video DiT 的结构性冗余。动态路由实现「按输入按 timestep 算」是 efficient video gen 的下一阶段方向。但 router 本身的训练稳定性、推理时的额外 overhead、以及与 OSP-Next 类静态稀疏组合后的边际收益需要更细 ablation

3. Quantized Keys Steal Attention：KV缓存量化的Jensen偏差校正

Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion | 慕尼黑工大 TUM, Tensordyne | arXiv:2605.26266

关键词：视频扩散·KV cache·INT2 量化·Jensen 偏差·长视频

⚠️ 前序问题：chunk-wise 自回归视频扩散依赖前序 chunk 的 KV cache 避免重复计算，但视频越长 cache 越大，量化 KV 到低 bit 又会显著掉画质。掉画质的根因是什么？以前没人说清楚
本文贡献：首次明确指出根因：softmax 注意力中 exp 的凸性让量化噪声系统性放大「被 cache 的 keys」对注意力的贡献——作者命名为 Jensen bias（量化的 keys 会偷走当前 chunk 的注意力质量）。给出 per-attention-score 的解析修正项，在 expectation 上消除该 bias，只用量化 step size 和 query norm 即可在线算；用二阶 Taylor 近似让额外计算开销可忽略、无需额外显存
实验效果：在 MAGI-1 / SkyReels-V2 / HY-WorldPlay 三个长视频模型上 INT2 量化即可恢复大部分掉的质量、接近 BF16；用 50% 更少显存的 INT2 反而能超过 INT4——长视频 KV cache 压缩拿到新的帕累托前沿
批判点评：把「量化掉画质」从经验问题改写成「Jensen 偏差」这一可解析的统计现象是真正的科学贡献——一行公式校正、零额外显存就拿到 INT2 ≈ BF16 的质量。这种「找根因 + 闭式解」的工作含金量高。但局限在 chunk-wise AR 视频扩散，对非 AR 的全局扩散 KV 压缩不直接适用；与 SmoothQuant 等激活/权重路线的组合策略还可探索

4. SVDQuant-GPTQ：W4A4量化Wan2.2-I2V省内存59.3%

Timestep-Aware SVDQuant-GPTQ for W4A4 Quantization of Wan2.2-I2V | 华中科技大学 HUST | arXiv:2605.27003

关键词：W4A4 量化·Wan2.2·MoE DiT·SVDQuant·华中科大

⚠️ 前序问题：把大型视频 DiT 推到 W4A4 量化可以省一大块显存，但两道坎卡死：(1) 稀疏的「大幅激活 outlier」；(2) 不同去噪 timestep 的激活分布漂移很大。这两个问题在 Wan2.2-I2V 双专家 MoE DiT（高噪/低噪两个 expert 量化敏感度完全不同）下被进一步放大——单一全局校准策略根本拿不下
本文贡献：Timestep-Aware SVDQuant-GPTQ：(1) SVDQuant-based 低秩 outlier 补偿处理激活大幅 outlier；(2) GPTQ 重建感知残差权重量化；(3) timestep-bin-wise 逐层激活 clipping-ratio 搜索，对每个 MoE expert 独立完成。三件套合起来就是「按 expert + 按 timestep」精细化校准的 PTQ 框架
实验效果：在 OpenS2V-Eval 上相对 BF16 把峰值 GPU 内存降 59.3%，VBench 平均分仅掉 0.9%，Imaging Quality 仅掉 2.3%——证明「expert + timestep 双感知校准」是 MoE 视频 DiT 量化高保真的必要条件
批判点评：把 MoE DiT 量化从「全局校准」拉到「按 expert + 按 timestep」是正确的颗粒度切分——双专家的量化敏感度本来就不同，强行全局必然掉点。59.3% 内存降 + <1% 质量损是漂亮的工业数字。但 PTQ 路线天然依赖 calibration set 质量，长视频/复杂运动的覆盖度需要追踪；与昨天 RT-Lynx 类激活稀疏的组合潜力值得探索

5. Dasheng AudioGen：首个文生混合音频场景统一模型

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text | 小米, 上海交大 | arXiv:2605.27838

关键词：音频场景生成·multi-view caption·flow matching·小米·DiT

⚠️ 前序问题：音频生成长期被「按域切分」——语音、音乐、音效各有独立模型——做不到从一句描述生成「同时包含人声 + 背景音乐 + 环境音效」的连贯混合音频场景。两大障碍：缺真实混合音频的细粒度监督；声学表示难以同时承载多个并发音频组件
本文贡献：Dasheng AudioGen：首个统一生成混合音频场景的端到端框架。两个核心：(i) structured multi-view captions——把复杂声学场景显式解耦成互补的描述视图，让每个音频层都有细粒度控制；(ii) 高维统一「语义-声学」表示作为共享 latent，注入语义先验加速跨模态训练收敛，同时高维特征空间提供解耦并发声音组件的容量。在此基础上一个简单的 flow-matching DiT 就能跑出端到端高质量音频场景生成
实验效果：在混合音频类别接近真实录音质量，单类型生成（speech/music/SFX）也与专用模型打平——首次把「视觉生成里图文统一」的思路真正落到音频场景上；配套建立音频场景生成的综合评测 pipeline
批判点评：「structured multi-view captions + 高维语义-声学统一 latent」是非常对症的两个设计——把音频域的「描述粒度」和「表示容量」都拉到能容纳混合场景的层次。flow-matching DiT 的工程极简性也很好。但 multi-view caption 的自动构造成本/质量、高维 latent 增加的 DiT 训练开销，以及与商用 ElevenLabs Sound Effect / Stable Audio 2 的端到端对比都需要更细评测

6. HarmoVid：视频肖像重打光和谐化稳定不闪烁

HarmoVid: Relightful Video Portrait Harmonization | Adobe Research, UNC | arXiv:2605.28811

关键词：视频肖像·relight 和谐化·deflicker·alpha mask·Adobe

⚠️ 前序问题：把人物前景视频和谐到目标背景场景（同步阴影、色调、光照强度——relightful harmonization）的硬伤是：视频域没法采集「同一动作不同光照」的成对标注数据。最直接的方案——「按帧调用图像和谐模型」——会带来严重时序抖动（flicker）
本文贡献：HarmoVid 给出整套视频和谐化方案：(i) 全新的 lighting deflickering 模型稳定全局和局部光照 flicker，把「逐帧 image-harmonization」的输出升级成可监督的 paired 视频数据；(ii) 视频扩散模型在 deflickered 真实 + 合成视频上学习；(iii) asymmetric alpha mask conditioning 让模型从真实视频里学到干净的边界
实验效果：在时序连贯、自然度、边界干净度、物理合理光照行为多个维度超越此前所有 image-based 和 video-based 和谐化方法；relighting 表现力也保住——人物视频合成 / 后期合成的标准工业链路被显著升级
批判点评：用「先 deflicker 再训练」绕开「无成对数据」的死结是非常聪明的——deflicker 把单帧图像和谐输出转化成可用监督，是真正的杠杆点。asymmetric alpha mask 也很实用。但 deflicker 模型本身的失败模式（强光/复杂阴影）会传导到下游；与 Adobe 自家的商业级合成工具的真实对比需要更细评测

7. SmartDirector：多关键帧条件电影级视频叙事控制

SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control | 国内视频生成团队 | arXiv:2605.27891

关键词：电影级视频·多关键帧·叙事节奏·两阶段·Director-Gen/SR

⚠️ 前序问题：视频的「叙事质量」决定感知价值，但现有视频生成方法主要靠 text prompt 或首尾帧这类稀疏 condition——对叙事结构和时序节奏的精确控制非常有限，导出不了真正「有 pacing 的电影感视频」
本文贡献：SmartDirector：以多关键帧增强视频生成的叙事能力。支持单镜头、多镜头叙事合成、视频延展三类场景。两阶段：(i) Director-Gen 在低分辨率上以关键帧为条件生成；(ii) Director-SR 利用高分辨率关键帧作为语义锚点把细粒度细节补回来。配套数据管线从电影中精选单镜头/多镜头序列以支撑多关键帧训练
实验效果：在多个评测上大幅超越 SOTA，把视频生成从「按 prompt 出 5 秒片段」升级到「按多关键帧出有节奏的多镜头序列」——电影级视频生成的可控性接近真实创作工作流
批判点评：「多关键帧 + 两阶段先粗后细」直击「电影级叙事控制」的实际痛点——单 prompt / 首尾帧确实远远不够。两阶段把分辨率 vs 叙事控制解耦是合理设计。但「关键帧」的获取成本（人工/AI辅助）和叙事节奏的可量化评测仍是模糊地带；多镜头切换的时空一致性细节需要更深 ablation

8. LoSATok：1280维语义压缩到128维统一audio

LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation | 清华深圳, 面壁智能 | arXiv:2605.27840

关键词：audio tokenizer·128 维·语义瓶颈·清华深圳·面壁

⚠️ 前序问题：音频 tokenizer 是统一「音频理解」和「音频生成」的根基。理解需要高层语义；生成需要语义 + 声学细节。现有统一 tokenizer 在高维连续 latent 里同时编码——这增加了 DiT 生成端的建模负担
本文贡献：LoSATok：观察到 1280 维语义 encoder 特征是可压缩的，引入 Semantic Bottleneck 压到 128 维，并用 time-relation loss 保时序特征一致性；再用「双层级语义监督」同时利用高维/低维语义信号——让 tokenizer 在紧凑 latent 空间里同时承载语义和声学细节
实验效果：在 speech / music / 通用 audio 上 SemBo 保住强低维语义容量，LoSATok 与多个语义表示比较 understanding 性能仍有竞争力；在 DiT 端的 speech / music / audio 生成上一致改进——证明「低维 audio 表示也能同时支撑理解与生成」
批判点评：把「audio 统一 tokenizer」的维度从 1280 砍到 128 是非常硬的容量压缩——若真的不掉理解还能提升生成，那就解掉了「audio 统一表示卡 DiT」的关键梗。time-relation loss + 双层级语义监督是合理工程。但 128 维下声学细节的极限（音乐复杂混音、长 reverb）需要更细测试；与 Dasheng AudioGen 高维路线的端到端比较是行业级议题

9. CosyEdit2：GRPO语音编辑反哺零样本TTS

CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS | 南开大学 | arXiv:2605.25930

关键词：语音编辑·GRPO·zero-shot TTS·南开大学·post-training

⚠️ 前序问题：语音编辑和 zero-shot TTS 同源于「prompt 驱动的语音生成」，但语音编辑对「与周围未编辑内容的局部声学一致性」要求严苛得多。SFT 让 TTS 模型获得编辑能力的路线被卡在「成对编辑数据不完美 + 优化信号粗粒度」
本文贡献：CosyEdit2：建立「先 SFT 初始化 → 再 editing-oriented GRPO 后训练」的两阶段框架。GRPO 阶段在「无目标语音」的数据上做，把语音编辑当作 RL 任务优化，让模型从粗粒度匹配走向精细局部声学一致
实验效果：不仅在语音编辑上显著提升，还反哺 zero-shot TTS 能力——揭示「编辑任务 ↔ 合成任务」之间隐藏的相互增益；GRPO 在 audio 域被验证是有效的 post-training 范式
批判点评：把 GRPO 引入 audio 域、并用「编辑反哺合成」这个新角度证明两个任务的深层互助，是非常聪明的科学故事。无目标语音的 RL 设计也比依赖成对数据更可扩展。但 GRPO 的 reward 设计细节、跨语种/多说话人鲁棒性、以及对 prosody 细节的影响需要更系统评测

10. PilotTTS：高德200K小时开源TTS竞品级

PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis | 高德 AMAP | arXiv:2605.27258

关键词：TTS·200K 小时·开源·Q-Former·高德 AMAP

⚠️ 前序问题：SOTA TTS 系统通常需要数百万小时专有数据 + 多阶段复杂架构——这对资源受限的研究团队是几乎跨不过去的门槛。开源社区想自己训出竞品级 TTS 一直缺成熟 recipe
本文贡献：PilotTTS：高德 AMAP 用「最小化架构 + 严格数据工程」做出竞品级轻量自回归 TTS。仅用 200K 小时数据 + 全开源工具处理。两大贡献：(i) 可复现的多阶段数据处理 pipeline（质量评估 + 标签标注 + 过滤）；(ii) Q-Former conditioning 紧凑模型架构，通过 cross-sample paired training 解耦说话人身份与说话风格。统一框架支持 zero-shot voice cloning / 11 类情感合成 / 4 类副语言合成 / 14 种中文方言
实验效果：在 Seed-TTS Eval 上 test-en WER 1.50%（最低）、test-zh CER 0.87%；两个测试集说话人相似度都最高（0.862 / 0.815）——超越使用大得多数据集训出来的系统。完整 data pipeline + 预训练权重 + 代码全开源 (AMAPVOICE/PilotTTS)
批判点评：「200K 小时 + 开源工具 + 极简架构」做出超越百万小时专有数据系统的 TTS——是非常有信号量的开源胜利，对中小团队意义重大。Q-Former 解耦说话人/风格的设计也是 clean。但 PilotTTS 主打数据工程而非架构创新，复现门槛仍在「数据处理 pipeline 的工程细节」；与昨天 LongCat-Avatar 类「audio + 视频联合」的下一步集成是开放问题

11. LAIR：扩散模型从成对偏好升级到列表对齐

Beyond Pairwise Preferences: Listwise Reward-Aware Alignment for Diffusion Models | 斯坦福, 加州理工 Caltech | arXiv:2605.26491

关键词：diffusion 对齐·listwise preference·advantage-weighted·Stanford·Ermon

⚠️ 前序问题：preference optimization 已成 RLHF 之外对齐 T2I 扩散的高效替代，但现有方法基本都把监督降到 binary pairwise——这在「同 prompt 有多张候选 + 有连续 reward 分数」时严重浪费信息（一个 winner-loser 标签远远没用上 reward 分布）
本文贡献：Diffusion LAIR：reward-aware listwise preference optimization。每个 prompt 把候选组的 reward 分数转成中心化 advantage 权重，再优化「advantage-weighted regression」目标——目标定义在 implicit reward（当前模型 vs 固定参考模型的 denoising-loss 改进量）上，配二次惩罚正则隐式 reward 幅度。结果是同时用所有候选而非选 pair，并保持保守。LAIR 目标在 implicit-reward 空间有 bounded closed-form 最优解，把正则强度 → 偏好更新幅度的关系写清楚
实验效果：在 SD1.5 / SDXL 上对 T2I 生成 / 组合生成 / 图像编辑 benchmark 都超越 strong pairwise preference optimization baseline；为 diffusion 对齐提供「更接近 RLHF reward 信息密度但不需在线 RL」的中间路线
批判点评：把 DPO 类 pairwise 升级到 listwise + 给出 closed-form 最优解的清晰表述是教科书级的方法工作——既保留 offline 偏好优化的稳定性，又用上了 reward score 的全部信息。但 listwise 数据采集成本高于 pairwise（要 N 张同 prompt 候选 + reward 分），实际落地的数据可得性是隐藏成本；与 in-context 在线 RL（GRPO 类）的端到端比较略浅

趋势观察

视频生成进入「全栈加速」时代：稀疏 + 量化 + 并行 + 路由 + RL 多管齐下 — OSP-Next 把稀疏注意力 + Sparse Sequence Parallelism（通信 -75%）+ HiF8 量化 + Mix-GRPO 一锅端，跨 H200 / 昇腾双硬件分别 1.64× / 2.27× 加速；PARE 联合宽度剪枝 + 动态深度路由，在 Wan2.1-14B 上按输入按 timestep 动态算；SVDQuant-GPTQ 把 Wan2.2 双专家 MoE DiT 推到 W4A4 显存降 59.3%——视频生成的工业部署正在被「全栈加速」改写
长视频 KV cache 压缩出现「找根因 + 闭式解」类突破 — Quantized Keys Steal Attention 首次把「量化 KV 掉画质」从经验现象写成 Jensen bias（exp 凸性放大 cache key 贡献）的可解析统计现象，一行公式校正零额外显存，让 MAGI-1 / SkyReels-V2 / HY-WorldPlay 在 INT2 上接近 BF16——把 chunk-wise AR 长视频的 KV 压缩从「玄学调参」推到「有理论的工程」
音频生成统一化：从「按域切分」走向「一句描述出混合场景」 — Dasheng AudioGen 是首个能从一句描述同时生成 speech + music + SFX 混合连贯场景的统一模型，关键是 structured multi-view captions + 高维语义-声学统一 latent；LoSATok 反过来把 1280 维语义压到 128 维统一 tokenizer 反哺 DiT 生成；CosyEdit2 在 audio 域用 GRPO 把「编辑」反哺「TTS」——audio 正在重走视觉「统一模型」的同一条路
视频生成的「叙事控制」与「视频后期」继续拓宽到工业链路 — SmartDirector 把视频生成从「按 prompt 出 5 秒片段」升级到「多关键帧 + 两阶段先粗后细」做电影级叙事节奏控制；HarmoVid 用 deflicker 模型破解「视频和谐化无成对数据」的死结，把视频肖像 relight 和谐化做到工业级稳定——视频生成的可控性从「内容」深入到「节奏」和「后期合成」
开源 TTS / 对齐方法补齐 audio + diffusion 的「最后一公里」 — 高德 PilotTTS 用 200K 小时 + 开源工具 + Q-Former 极简架构做出超越百万小时专有系统的开源 TTS（Seed-TTS Eval 第一）；Diffusion LAIR 把 T2I 对齐从 pairwise 升级到 listwise，给出 implicit-reward 的 closed-form 最优解——开源社区在 audio 合成 + diffusion 对齐这两个长期被闭源霸占的方向同时迈出了「竞品级 + 理论级」的双台阶

人工智能炼丹君整理 | 2026-05-28

版权属于：人工智能炼丹君

本文链接： https://jefxiong.cn/index.php/archives/aigc-daily-papers-20260528.html

作品采用：《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 》许可协议授权

AIGC 每日速读|2026-06-02|微软实时流式数字人视频比肩大模型

AIGC 每日速读|2026-06-01|英伟达SANA单卡24FPS实时流式视频编辑

AIGC 每日速读|2026-05-29|生数科技minWM开源实时交互视频世界模型

AIGC 每日速读|2026-05-27|美团LongCat-Avatar 1.5开源逼近闭源数…

取消