首页
AIGC
常用链接
关于
Search
1
Pytorch DDP
2,462 阅读
2
Pytorch 常见问题
1,492 阅读
3
视频时序切分
1,295 阅读
4
中文场景下的CLIP图文预训练
1,008 阅读
5
2022年微信大数据比赛(多模态短视频分类)总结
1,003 阅读
默认分类
AIGC
分布式训练
多模态理解
阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
AIGC Daily Papers
Search
标签搜索
AIGC
论文速读
人工智能
ai
视频生成
DiT
蒸馏
多模态
attention
对齐
diffusion
图像生成
python
扩散模型
图像编辑
llm
视频编辑
lora
Meta
transformer
Jefxiong
累计撰写
68
篇文章
累计收到
8
条评论
首页
栏目
默认分类
AIGC
分布式训练
多模态理解
阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
AIGC Daily Papers
页面
常用链接
关于
搜索到
3
篇与
视频编辑
的结果
2026-06-02
AIGC 每日速读|2026-06-02|微软实时流式数字人视频比肩大模型
今日 AIGC 论文速览 今日共 9 篇 · 实时与高效视频生成 2 篇 · 视频与图像编辑 3 篇 · 自回归与多模态生成 2 篇 · 可信与安全生成 2 篇 重点论文标题列表 实时流式数字人(微软研究院):语音驱动实时流式肖像视频 AlbedoEdit(马普所·NVIDIA·UCSB):反照率引导统一视频编辑 MT-EditFlow(Apple·UCLA·UT Austin):RL优化多轮图像编辑 边界保护量化(中科院大学·华为昇腾):Wan2.1视频DiT零损W8A8 RDA(中南大学·牛津·微软):免重训提升AR文字渲染 今日论文速览 1. 实时流式数字人:语音驱动实时流式肖像视频 Real-Time Generation of Streamable Talking Portrait Video with Reference-Guided Deep Compression VAEs | 微软研究院 | arXiv:2606.01620 关键词:数字人,流式生成,因果VAE,Rectified Flow,实时 前序问题:视频扩散模型画质虽好但算力高,难以用于实时交互式数字人场景。 本文贡献:提出面向流式场景的「语音+参考图」驱动数字人视频生成框架:用因果视频 VAE 做深度潜空间压缩,配自回归潜空间去噪生成器。VAE 可接入可变数量参考图作为引导,让网络聚焦动态信息而非静态外观,从而同时提升压缩率与重建质量;并把残差自编码范式扩展到时空因果建模,生成器基于 Rectified Flow Transformer 分块自回归产出视频潜变量。 实验效果:实现高质量数字人视频的实时生成,速度显著快于基线大模型;在真实感、生动性与视频质量上与大模型持平甚至更优。 批判点评:「因果 VAE + 参考图引导 + 分块自回归 RFT」把流式实时数字人做到与大模型同档画质,工程价值很高。但验证集中在语音驱动的正面肖像窄域,缺乏对长时序漂移、侧脸大幅运动、多说话人等极端场景的系统评测,实时性也强依赖特定硬件。 2. AlbedoEdit:反照率引导统一视频编辑 AlbedoEdit: Unified Instance-Level Video Editing with Albedo Guidance | 马普所·NVIDIA·UCSB | arXiv:2606.01362 关键词:视频编辑,反照率,实例级,物体插入,纹理编辑 前序问题:细粒度实例级视频编辑(插入/删除/纹理)要么只有粗语义控制,要么任务专用、难通用。 本文贡献:提出统一视频编辑框架 AlbedoEdit,同时支持物体插入、删除与纹理编辑。核心洞察是本征反照率图不含光照、镜面、阴影与互反射,是指定外观编辑的理想用户接口。基于视频基座模型微调,把源 RGB 视频按用户编辑的首帧反照率翻译为编辑后 RGB 视频;在覆盖三类编辑的配对合成数据集上训练,隐式学会协调编辑内容并模拟高光、软阴影、镜面反射等真实视觉效果。 实验效果:在物体插入、删除、纹理编辑上定性定量均超越 SOTA 视频编辑方法,且单一框架统一支持三类任务。 批判点评:用「反照率」作编辑接口巧妙绕开了光照纠缠,统一三类编辑很优雅。但训练依赖配对合成数据集,真实视频与合成域之间的差距、以及用户能否方便地编辑反照率图(而非直接画 RGB)是落地的现实门槛。 3. MT-EditFlow:RL优化多轮图像编辑 MT-EditFlow: Reinforcement Learning for Multi-Turn Image Editing with Flow Matching | Apple·UCLA·UT Austin | arXiv:2606.01985 关键词:多轮编辑,强化学习,流匹配,GRPO,奖励建模 前序问题:单轮训练的编辑模型在多轮交互编辑中会因「一轮失败毁全程」和误差累积而崩溃。 本文贡献:提出流匹配强化学习框架 MT-EditFlow,把多轮视角与多奖励统一进 GRPO 与 NFT 两类 RL 方法。系统分析轮级聚合打分策略、VLM 推理模式(权衡奖励偏差与方差)、优势融合层级(防奖励黑客),并发现把聚合优势广播到整条编辑轨迹,能弥合局部规划与全局多轮成功之间的鸿沟。 实验效果:在多个基座上显著提升;把 FLUX.1-Kontext-dev 的第 3 轮整体表现提升 6.85 分,超过 Qwen-Image-Edit 等开源 SOTA,并保持高边际成功率、降低暴露偏差。 批判点评:把多轮编辑当作序列决策、用 RL 显式优化轨迹级奖励,方向对路。但奖励信号高度依赖 VLM 打分,VLM 自身偏差会被放大;6.85 分的提升也主要在 turn-3 这一特定设置,更长交互的稳健性仍待验证。 4. 边界保护量化:Wan2.1视频DiT零损W8A8 Boundary-Protection W8A8 HiFloat8 Quantization for Large-Scale Text-to-Video Diffusion Transformers | 中科院大学·华为昇腾 | arXiv:2606.00957 关键词:量化,W8A8,HiFloat8,视频DiT,昇腾NPU 前序问题:视频 DiT 逐块激活分布异质,首尾块统计特性与中间块根本不同,均匀量化失效。 本文贡献:面向 Wan2.1-T2V-14B 在昇腾 910B 上的 W8A8 HiFloat8 量化,对全部 40 个注意力块做逐块激活分析(max-abs、标准差、峰度、99 分位),提出边界保护策略:首 2 块、尾 3 块保留 BF16,其余 35 块用 W8A8 HiF8 量化,兼顾误差遏制与输出保真。 实验效果:PTQ 在 VBench 全部 5 个维度上持平甚至略超 BF16 基线,5-prompt 内无可测精度损失;消融证明须同时保护首尾才有效;量化 35 块省约 12GB 显存,单卡可推理。 批判点评:把「边界块敏感」这一经验观察落到具体保护配置,工程实用且有消融支撑。但评测仅 5 条 prompt、样本量太小,统计说服力有限;QAT 在单卡下反而不如 PTQ,且当前工具链软件量化更慢,硬件原生 HiF8 收益尚未真正兑现。 5. RDA:免重训提升AR文字渲染 Residual Decoder Adapter: ID-Preserving Tokenizer Adaption for Autoregressive Text Rendering | 中南大学·牛津·微软 | arXiv:2606.01911 关键词:自回归生成,文字渲染,Tokenizer,残差适配器,OCR 前序问题:视觉自回归模型文字渲染笔画模糊、字形错乱,根源在 tokenizer 重建细节不足,但重训代价高。 本文贡献:提出 Residual Decoder Adapter(RDA):不改 token 空间、事后升级 tokenizer——引入与原码本共享分布的配对码本,以及在像素空间学习重建图与真值微小残差的并行分支,从而非侵入式增强 tokenizer 且兼容已有 AR 模型,无需重训 tokenizer 与生成模型。 实验效果:大幅提升文字渲染:微调 Janus-Pro 的 OCR 准确率在 TextVisionBlend 从 24.52% 升至 58.26%、StyledTextSynth 从 12.75% 升至 36.81%。 批判点评:「残差适配器」思路精巧,免重训就能补齐文字短板,迁移成本低。但本质是给解码器打补丁、治标性质,token 空间本身的信息瓶颈未动;提升集中在 OCR 类指标,对复杂版式、多语言长文本的泛化仍需更多验证。 6. TFinv:免训练一步扩散反演编辑 Training-free image inversion for one-step diffusion models | 巴塞罗那CVC·MBZUAI·吉大 | arXiv:2606.01380 关键词:图像反演,一步扩散,免训练,图像编辑,PIE-Bench 前序问题:一步扩散模型的真实图像反演与编辑受限于初始潜变量可编辑性与图文 Caption Gap 两大障碍。 本文贡献:提出免训练框架 TFinv:迭代噪声对齐 (iterNA) 缩小初噪与高斯分布的差距、后缀学习 (suffL) 用可学习后缀 token 增强图文对齐,实现精确反演到初噪并便于编辑;并提出基于 mask 的局部编辑以保护背景完整性。 实验效果:在 PIE-Bench 上达到一步扩散编辑 SOTA,效率显著优于多步反演方法。 批判点评:免训练把一步扩散的反演难题拆成「初噪可编辑性 + 图文对齐」两个可操作因子,干净利落。但推理时仍需迭代对齐与后缀学习,并非真正零开销;评测主要在 PIE-Bench,对复杂多物体场景的编辑保真度还需更广验证。 7. ProductWebGen:商品网页生成评测基准 ProductWebGen: Benchmarking Multimodal Product Webpage Generation | 上海交大·快手 | arXiv:2606.01022 关键词:商品网页,多模态生成,统一模型,图像编辑,基准 前序问题:从商品图+指令生成可渲染 HTML 网页需要严格视觉一致与高保真指令遵循,缺乏系统基准。 本文贡献:推出 ProductWebGen 基准:500 个测试样本、13 个品类,每样本含源图、视觉内容指令与网页指令;系统对比两类工作流——编辑式(LLM+图像编辑模型分别生成 HTML 与图)与统一模型式(单 UM 同时生成)。并构建 SFT 数据集 ProductWebGen-1k(1000 组真实商品图+LLM 生成 HTML),在开源 UM BAGEL 上验证有效。 实验效果:编辑式在网页指令遵循与内容吸引力上领先,统一模型式在满足视觉内容指令上更有优势;SFT 数据显著提升 BAGEL 表现。 批判点评:把多模态生成能力落到电商网页这一真实落地场景,任务设计与双工作流对比都很务实。但 500 样本规模偏小、评测多依赖模型/人工主观打分,且「可渲染 HTML」的工程正确性与跨浏览器一致性等硬指标尚未充分覆盖。 8. SafeGen-Bench:图生视频安全性评测基准 SafeGen-Bench: Benchmarking Safety in Image-Conditioned Text-to-Video Generation | 威斯康星·清华·JHU | arXiv:2606.01481 关键词:视频安全,图生视频,红队评测,内容护栏,基准 前序问题:现有视频安全基准只测恶意文本,忽视「安全文本+安全图像」组合仍可能生成有害内容。 本文贡献:推出 SafeGen-Bench 评测条件式 T2V(图生视频)安全性:定义 10 类恶意类别,聚焦时序与行为相关风险,精选多源起始帧配对文本 prompt 模拟真实输入;评测多个条件 T2V 模型,并测试文本/图像护栏的有效性。 实验效果:当前模型难以稳定规避恶意内容,不安全分数最高达 44.5(尤其在追求高质量时);单模态护栏不足以防御,7 类恶意类别下失败率达 80%。 批判点评:点出「安全输入也能合成有害视频」这一被忽视的真实风险并量化护栏失效,警示意义强。但 10 类恶意类别与起始帧选择带主观性,'unsafety score' 的判定依赖评估模型,跨文化/跨场景的有害定义边界也较模糊。 9. KG-FairDiff:知识图谱引导T2I去偏 KG-FairDiff: Knowledge Graph-Guided Prompt Refinement for Demographically Fair Text-to-Image Generation | Sharif·KTH·Vanderbilt | arXiv:2606.01282 关键词:文生图,公平性,去偏,知识图谱,prompt改写 前序问题:文生图系统继承训练数据的人口与文化刻板印象,重训不可行、固定模板又忽视文化语境。 本文贡献:提出模型无关的推理时框架 KG-FairDiff,把公平感知的 prompt 改写形式化为约束优化并做成闭环:约 1200 条文化/偏见三元组的知识图谱检索结构化上下文、LLM 改写器提出修订、验证器只接受能降低基于散度的公平损失且保持语义保真的 prompt;证明改写循环有限步终止,并审计 8 个广泛部署的生成器。 实验效果:在保持 prompt 语义的同时,显著降低性别、种族、年龄及交叉维度的差异,提供无需重训、可直接部署的公平化方案。 批判点评:不碰闭源权重、用推理时 prompt 改写+知识图谱做去偏,部署友好且有终止性证明,务实。但公平损失与目标分布的设定本身带价值判断,1200 条三元组的覆盖与文化偏向也会引入新偏差;强行改写 prompt 可能损害用户原意,'去偏'与'忠实'的取舍仍是开放问题。 趋势观察 实时化成为视频生成主线 — 微软用因果 VAE+分块自回归 RFT 把数字人做到实时流式,边界保护量化让 14B 视频 DiT 单卡零损部署,'又快又省'是今天最强信号。 编辑从单轮走向多轮/实例级 — MT-EditFlow 用 RL 优化多轮编辑轨迹,AlbedoEdit 用反照率统一实例级视频编辑,编辑的可控性与交互性同步进化。 免训练/事后增强降低改造成本 — TFinv 免训练做一步扩散反演,RDA 免重训给 tokenizer 打残差补丁,KG-FairDiff 推理时改写 prompt 去偏——都在追求'不动主模型'。 评测与安全补齐落地短板 — ProductWebGen 补电商网页生成基准,SafeGen-Bench 揭示图生视频的安全盲区,工具与红队评测正追上生成能力。 多极化算力与机构同台 — 微软、马普所、NVIDIA、Apple 与上海交大、中科院大学+华为昇腾、中南大学同日发声,研究力量与算力底座多极化。 人工智能炼丹君 整理 | 2026-06-02 更多 AIGC 论文解读,关注微信公众号「人工智能炼丹君」 每日更新 · 论文精选 · 深度解读 · 技术脉络 微信搜索 人工智能炼丹君 或扫描下方二维码关注
2026年06月02日
0 阅读
0 评论
0 点赞
2026-06-01
AIGC 每日速读|2026-06-01|英伟达SANA单卡24FPS实时流式视频编辑
今日 AIGC 论文速览 今日共 8 篇 · 实时/高效视频生成 2 篇 · 视频世界模型 2 篇 · 统一多模态生成 2 篇 · 音频生成 2 篇 重点论文标题列表 SANA-Streaming(NVIDIA, MIT):单卡RTX5090实时流式视频编辑 LVSA(开源·JiusiServe):免训练长视频稀疏注意力3x提速 Lumos-Nexus(NUS, 阿里达摩院):高效统一视频生成推理驱动 DecMem(快手可灵, 港大 HKU):解耦记忆做分钟级一致世界生成 Light Interaction(浙江大学, NVIDIA):免训练交互视频世界模型加速 今日论文速览 1. SANA-Streaming:单卡RTX5090实时流式视频编辑 SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer | NVIDIA, MIT | arXiv:2605.30409 关键词:实时视频编辑·混合DiT·GDN线性注意力·RTX5090·英伟达 前序问题:实时流式视频到视频编辑(V2V)对直播、游戏等交互应用至关重要,但它对时序一致性和推理吞吐都有极苛刻的要求——既要逐帧流式出片、又要保住跨帧一致,还得在消费级 GPU 上跑得动,前人一直没能同时满足 本文贡献:SANA-Streaming:系统-算法协同设计的高分辨率实时流式视频编辑框架,三件套。(1) Hybrid DiT:在 SANA-Video 全线性骨干里均匀插入 5 个 softmax 注意力块 + 15 个高效 Gated DeltaNet(GDN) 块,用线性块保效率、softmax 块补局部建模与首块一致性,恒定显存 + 任意长度;(2) Cycle-Reverse 正则:用 flow matching 从生成内容反向预测源帧来强制语义一致,无需成对长编辑视频;(3) 面向 NVIDIA Blackwell(RTX 5090) 的系统协同:融合 GDN kernel + 混合精度量化(MPQ) 拉满 Tensor Core 实验效果:单张 RTX 5090 上做到 1280×704 分辨率、24 端到端 FPS 的实时编辑,DiT 核心跑到 58 FPS;混合设计相比纯 softmax 变体长视频生成只需 5.56GB 显存、提速 3.7×;在时序连贯性和系统吞吐上都显著超越现有 SOTA 批判点评:「混合线性/softmax DiT + 反向一致性正则 + 面向 5090 的量化协同」把实时视频编辑从「论文 demo」真正推到「消费级单卡可跑」,24FPS 端到端是非常硬的工程里程碑;恒定显存是流式落地的关键。但 2B 模型的编辑能力上限、复杂语义编辑的保真度、以及对 5090 之外硬件的可移植性还需观察;Cycle-Reverse 正则在大幅度编辑下的稳定性值得追踪 2. LVSA:免训练长视频稀疏注意力3x提速 LVSA: Training-Free Sparse Attention for Long Video Diffusion | 开源·JiusiServe | arXiv:2605.31057 关键词:长视频扩散·免训练稀疏注意力·旋转全局锚点·Wan/Hunyuan·昇腾NPU 前序问题:稠密自注意力是长视频扩散推理的算力和质量双瓶颈:开销随序列长度二次增长,且超过训练长度后模型收敛到「近静态」——画面冻结、重复循环。现有方案要么太贵(要重训),要么在「提速 + 保质」上无法同时可扩展地满足 本文贡献:LVSA(Long Video Sparse Attention):免训练、模型无关的 block-sparse 注意力,把结构化窗口模式 + 旋转全局锚点(rotating global anchors) 结合,去掉「固定网格偏置」这一长程时序伪影的根因;配 FlashInfer kernel 落地,且天生支持多 GPU(context-parallel + sparse ring KV 交换)。还提出 VQeval 评测工具,专门给「循环/冻结」失败正确扣分(这类失败在 VBench-Long 等评测里反而被奖励) 实验效果:在 6× 训练长度下 Wan2.1-1.3B 提速 3.17×、Wan2.1-14B 提速 2.98×,HunyuanVideo 1.5 在 1.5× 长度提速 3.33×,还能让 HY1.5 跑到单卡原本 OOM 的 2× 长度;相比 RIFLEx/UltraViCo 分别快 2.41×/3.27×;在昇腾 NPU 上 Wan2.2-A14B/Wan2.1-1.3B 也提速 2.71×/3.24×。训练长度内质量中性、超长时质量为正 批判点评:「旋转全局锚点 + 结构化窗口」去掉固定网格偏置,是把「超训练长度变冻结」这一长视频顽疾从根上治理的漂亮思路;免训练 + 多 GPU + 跨 GPU/NPU 的工程完整度很高,VQeval 还顺手补了「循环失败被错误奖励」的评测漏洞。但 block-sparse 的固定模式对极复杂运动场景是否丢细节需要看;锚点数量与长度的 scaling 关系、与可训练稀疏(VSA 类)的质量上限对比可更深入 3. Lumos-Nexus:高效统一视频生成推理驱动 Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models | NUS, 阿里达摩院 | arXiv:2605.31603 关键词:统一视频生成·频率桥接·推理驱动·VR-Bench·阿里达摩院 前序问题:基于 connector 的统一视频模型在「指令理解驱动生成」上能力很强,但把一个大的高保真生成器塞进统一训练循环计算上不可行,从而限制了可达到的画质上限——理解强但画质受限 本文贡献:Lumos-Nexus:训练高效的统一视频生成框架,两阶段设计。训练阶段只把一个轻量生成器与理解模块对齐,学会接收推理驱动的语义控制;推理阶段引入 Unified Progressive Frequency Bridging(UPFB),在共享 latent 空间把生成逐步交棒给高容量预训练生成器,做粗到细精修,从而在不牺牲推理质量的前提下产出高保真视频。还提出 VR-Bench 专门评测「把推断意图翻译成连贯且语义对齐视频」的能力 实验效果:在 VBench 上视觉真实度与时序连贯性大幅提升,同时在 VR-Bench 上展现强推理驱动生成性能;用「轻量训练 + 推理时频率桥接交棒」绕开了「把大生成器塞进训练循环」的算力死结 批判点评:「训练只对齐轻量生成器、推理时再用频率桥接交棒给大模型」是把统一模型「理解-生成」解耦的聪明工程,既省训练又保画质;VR-Bench 把「推理对齐」立成新评测维度很有意义。但 UPFB 的交棒边界(何时交、交多少)对画质/语义一致的影响、两个生成器在共享 latent 的兼容性细节需要更多 ablation 4. DecMem:解耦记忆做分钟级一致世界生成 DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory | 快手可灵, 港大 HKU | arXiv:2605.31336 关键词:世界模型·解耦记忆·长视频一致性·分钟级生成·快手可灵 前序问题:视频生成模型推动了可控世界模型快速进展,但在长程推理下维持细粒度时空一致性仍是核心难题——朴素的可学习记忆架构有两大根本缺陷:计算低效 + 注意力发散(attention dispersion) 本文贡献:DecMem:超越显式 3D 记忆和粗粒度帧级隐式建模,提出细粒度、可学习、可扩展的记忆。先系统分析注意力发散问题,再用解耦记忆架构:Sparse Global Memory 负责对全局历史的高效细粒度访问,Anchored Local Memory 负责稳定高质量的外推。两者解耦,分别解决「效率」和「外推稳定」 实验效果:大量实验显著超越当前 SOTA;通过精确高效的长期记忆 + 更强外推能力,DecMem 实现分钟级、高保真、高一致的可控长视频生成 批判点评:把「记忆」拆成 Sparse Global(管全局访问效率)+ Anchored Local(管外推稳定)两条解耦通路,直击长视频记忆「又要全又要稳还要快」的三难,分钟级一致是世界模型很硬的指标。但解耦记忆的额外参数/显存开销、Sparse Global 的检索精度上限、以及与显式 3D 记忆在强几何一致场景的对比可更充分 5. Light Interaction:免训练交互视频世界模型加速 Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models | 浙江大学, NVIDIA | arXiv:2605.31158 关键词:交互世界模型·免训练加速·自适应计算·3D稀疏注意力·浙大 前序问题:交互式视频世界模型逐块生成、响应用户控制的相机运动(实时游戏模拟、虚拟场景漫游、具身 AI 训练),但扩到长交互轨迹代价极高:上下文记忆增长、注意力二次复杂度、反复去噪步骤 本文贡献:Light Interaction:免训练的交互式视频世界模型推理加速框架。核心洞察是「交互天然带来轨迹相关的自适应计算」——新探索时检索到的空间记忆可丢弃、时序上下文可按局部 latent 动态调整、相机重访熟悉区域时早期步输出可复用。据此组合自适应上下文管理 + 去噪缓存加速 + 软硬协同的 3D block-sparse 注意力(融合 Triton kernel) 实验效果:在 HY-WorldPlay 和 Matrix-Game-3.0 上无需重训即取得最高 2.59× 提速,同时保持有竞争力的视觉质量 批判点评:「交互轨迹本身就提供了该算多少的信号」是很锐利的洞察——重访可复用、新探索可丢记忆,把自适应计算和交互语义绑定,免训练即插即用对落地友好。但收益高度依赖轨迹的「重访比例」,在持续探索新场景的轨迹上加速会打折;3D block-sparse 的质量损失边界、与 minWM 类自回归蒸馏路线的组合潜力值得探索 6. Representation Forcing:去VAE瓶颈的统一多模态 Representation Forcing for Bottleneck-Free Unified Multimodal Models | 港大 HKU, 字节 Seed | arXiv:2605.31604 关键词:统一多模态·去VAE·表征强制·像素空间生成·字节Seed 前序问题:统一多模态模型(UMM)想用单一模型同时做感知和生成,但现有 UMM 仍依赖一个冻结、单独预训练的 VAE 做图像生成,构成结构性瓶颈;而直接去掉 VAE 又会带来质量缺口——模型得从原始像素同时学高层结构和底层细节 本文贡献:Representation Forcing(RF):让「表征预测」成为模型的原生能力来弥合这一缺口。具体是强制 decoder 在出像素前先自回归预测视觉表征作为中间 token,这些 token 留在 context 里、在同一 backbone 内引导像素扩散。把表征从「感知的输出」变成「生成的目标」,从而彻底不需要任何外部生成式 latent 空间 实验效果:RF 对理解和生成双双有益:图像生成上,像素空间 + RF 的模型匹配 SOTA 的 VAE 版统一模型;图像理解上,像素空间 RF 普遍优于其 VAE 版变体——朝着端到端、无瓶颈的 UMM 迈出有效一步 批判点评:「先自回归预测视觉表征 token 再扩散出像素」把外挂 VAE 的结构瓶颈内化成模型原生能力,是统一模型「去外部 latent」方向很干净的解法,且理解/生成同时受益说明表征-生成共享是对的。但自回归预测表征 token 引入的推理开销、表征 token 的设计对不同分辨率/模态的可扩展性、以及相比强 VAE 版在超高保真上的差距需要更多验证 7. SwanSphere:全景视频流式生成空间音频 Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer | 浙江大学 | arXiv:2605.30940 关键词:空间音频·流式生成·自回归扩散·全景视频·浙大 前序问题:实时准确的空间音频生成对沉浸式体验至关重要,但现有空间音频合成技术常受困于「生成质量 vs 高推理延迟」的取舍,且难以从多模态输入中捕获精确的空间信息 本文贡献:SwanSphere:从全景视频 + 文本提示生成高保真空间音频的统一流式框架。三大贡献:(1) 因果自回归扩散 transformer 架构,支持流式高质量空间音频生成;(2) Spatial Video-Audio Contrastive(SVAC) 对比学习把视频编码器对齐到声学域,再用多目标在线直接偏好优化(ODPO) 增强空间感知与多模态空间音频合成的鲁棒性;(3) 针对当前空间音频数据稀缺,开发自动标注 pipeline 生成详细空间 caption 实验效果:在 video-to-spatial 和 text-to-spatial 两类空间音频生成任务上均取得更优性能 (demo swanaigc.github.io) 批判点评:「因果 AR 扩散做流式 + SVAC 跨模态对齐 + ODPO 偏好优化 + 自动空间标注」一套组合直击空间音频「质量/延迟/数据」三重痛点,从全景视频生成空间音频是 VR/沉浸式应用很实在的能力,与同组 SwanVoice 一道补齐音频生成的空间维度。但空间音频评测主观性强、客观指标尚不统一;ODPO 的奖励设计与全景视频的空间精度上限还需更多披露 8. SwanVoice:长篇零样本对话语音合成 SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue | 浙江大学, 字节 | arXiv:2605.30993 关键词:零样本TTS·长篇对话·flow-matching·DiffusionNFT·浙大 前序问题:零样本 TTS 在单说话人合成上已大幅进步,但富有表现力的长篇多说话人对话仍很难。常见做法是用独白 TTS 逐句合成再拼接——增加推理成本,且常破坏跨轮次的声学一致性、对话连贯性和情感连续性。近期对话 TTS 仍难同时兼顾表现力一致、可控说话人切换和独白质量 本文贡献:SwanData-Speech + SwanVoice。数据侧用 Swan Forced Aligner 做停顿感知的词级对齐、RobustMegaTTS3 处理发音困难样本,从野外音频构建独白与对话语料。SwanVoice 是 1–4 人零样本 TTS:25Hz VAE + 带停顿符号与拼音替换的原始文本条件 + 带说话人轮次条件的 flow-matching DiT;训练从独白起步,经混合与真实对话数据,再用 DiffusionNFT 后训练 + 音素级和说话人相似度奖励 实验效果:在 SwanBench-Speech 上,独白与对话设置下的丰富度与层次分都高于所有评测的开源基线,内容准确率仍是主要限制 (demo swanaigc.github.io) 批判点评:把长篇对话 TTS 从「逐句独白拼接」升级成端到端建模,flow-matching DiT + 说话人轮次条件 + DiffusionNFT 后训练这套组合很完整,停顿感知对齐的数据工程是务实加分项。但作者自承内容准确率(WER/CER) 仍是短板,说明表现力和保真度的 trade-off 还在;25Hz 低帧率 VAE 在高保真音质上的天花板、4 人以上对话的可扩展性需要继续看 趋势观察 实时/高效视频生成进入「系统-算法协同」深水区 — SANA-Streaming 用混合 DiT(softmax + GDN 线性)+ Cycle-Reverse 正则 + 面向 RTX5090 的混合精度量化,在单张消费级 GPU 做到 1280×704、24 端到端 FPS 的实时流式视频编辑;LVSA 免训练 block-sparse + 旋转全局锚点,把 Wan2.1/HunyuanVideo 长视频推理提速最高 3.3×、还跨 GPU/NPU——视频生成的「实时化」正从算法和系统两端被同时撬动 视频世界模型的两大瓶颈——长程一致性与交互推理成本——被正面攻坚 — DecMem 用 Sparse Global + Anchored Local 解耦记忆,把可控世界生成推到分钟级一致;Light Interaction 抓住「交互天然带来轨迹相关的自适应计算」,免训练把 HY-WorldPlay/Matrix-Game-3.0 推理加速 2.59×——世界模型从「能生成」转向「长得住、跑得起」 统一多模态正在拆掉「外挂 VAE」这块结构性瓶颈 — Representation Forcing 让 decoder 先自回归预测视觉表征作为中间 token、再在同一 backbone 内引导像素扩散,像素空间模型即可匹配 VAE 版统一模型且理解更强;Lumos-Nexus 用渐进频率桥接把生成交棒给高容量预训练生成器、在共享 latent 做粗到细——统一模型在「去外部 latent」和「高保真」两条线同时推进 推理驱动 / 可控成为视频生成的新评测维度 — Lumos-Nexus 提出 VR-Bench 专测「把推理意图翻译成连贯视频」的能力;视频生成的评测从「画质 + 时序」扩展到「推理对齐」——可控性的内涵正在变深,生成模型被要求「不仅画得好,还要想得对」 音频生成从「单声道说话」走向「长篇对话 + 空间声场」 — SwanVoice 用 25Hz VAE + flow-matching DiT + DiffusionNFT 后训练做 1–4 人长篇零样本对话 TTS,富有表现力且说话人切换可控;SwanSphere 用因果自回归扩散 + SVAC 跨模态对齐 + ODPO,从全景视频/文本流式生成高保真空间音频——音频生成正在「对话连贯性」和「空间沉浸感」两个维度同时进化,补齐视觉生成之外的听觉一环 人工智能炼丹君 整理 | 2026-06-01 更多 AIGC 论文解读,关注微信公众号「人工智能炼丹君」 每日更新 · 论文精选 · 深度解读 · 技术脉络 微信搜索 人工智能炼丹君 或扫描下方二维码关注
2026年06月01日
2 阅读
0 评论
0 点赞
2026-05-19
AIGC 每日速读|2026-05-19|长视频生成FP4训推全栈LongLive-2.0
今日 AIGC 论文速览 今日共 13 篇 · 长视频生成与训推优化 2 篇 · 扩散推理加速与量化 4 篇 · 视频编辑与实时特效 2 篇 · 统一多模态生成 1 篇 · 音频生成与综述 2 篇 · 扩散 RL 后训练 2 篇 重点论文标题列表 LongLive-2.0:NVFP4 长视频生成训推全栈提速 2.15× TACache:Rectified Flow 训练免训练加速 4.14× Aurora:VLM Agent 把模糊指令拆解给视频编辑器 Lance:原生统一图像视频理解生成 MoE 模型 StreamingEffect:单 H200 实时 720p 人像视频特效 今日论文速览 1. LongLive-2.0:NVFP4 长视频生成训推全栈提速 2.15× LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation | NVIDIA | arXiv:2605.18739 关键词:长视频生成·NVFP4·序列并行·AR 视频扩散·Song Han 前序问题:长视频生成的训练和推理同时卡在显存和速度上:现有 Self-Forcing 系列依赖 ODE 初始化 + DMD 蒸馏,流程冗长;推理端把 KV cache 与计算精度压不下去,使得分钟级、多镜头、可交互的 AR 视频生成在大模型规模下难以落地 本文贡献:提出 LongLive-2.0:首个 NVFP4 端到端长视频生成训练 + 推理基础设施。(1) 训练侧的 Balanced SP——把 teacher-forcing 布局与序列并行(SP)协同设计,在每个 rank 上配对干净历史 + 噪声目标的时间块,并搭配 SP-aware 分块 VAE 编码;(2) 直接把扩散模型微调成长时多镜头交互式 AR 模型,跳过 ODE 初始化 + DMD 蒸馏;(3) 推理侧 Blackwell 上跑 W4A4 NVFP4,KV cache 也量化到 NVFP4,配合异步流式 VAE 解码 实验效果:训练加速 2.15×、推理加速 1.84×;LongLive-2.0-5B 在保持 benchmark 强表现的同时达到 45.7 FPS 推理;可独立 LoRA 切换为 4 步 / 2 步实时生成模式,是首个面向长视频生成的 NVFP4 训推一体系统 批判点评:把 NVFP4 这种 Blackwell 新精度从推理推到训练全链路是工程级里程碑,5B 跑出 45.7 FPS 把长视频 AR 推到了实时门槛;但 NVFP4 对硬件的强绑定限制了非 Blackwell 集群的复现路径,量化 KV cache 在多镜头切换时的累积误差也值得长期追踪 2. TACache:Rectified Flow 训练免训练加速 4.14× Accelerating Rectified Flow Models via Trajectory-Aware Caching | 上海交大, 军事科学院, 华为 | arXiv:2605.16789 关键词:Rectified Flow·训练-free 加速·缓存·正交分解·扩散推理 前序问题:扩散与 Rectified Flow 模型靠迭代评估速度场出图/出视频,计算昂贵;现有 cache 方法靠跳步加速,但粗略的近似在长跳步区间累积误差大,激进加速下质量明显劣化 本文贡献:提出 TACache(Trajectory-Aware Cache)训练-free 加速框架,遵循「先跳步后补偿」范式:对 RF 轨迹上离散速度加速度做正交分解(平行 + 正交残差),分离每步近似误差的幅值与方向来源;离线阶段用幅值 / 方向累积阈值生成跳步表,在线阶段结合样本历史正交方向重构被跳过的速度,无需额外模型评估 实验效果:在 BAGEL、FLUX.1-dev、Wan2.1-1.3B 上分别实现文生图 4.14×、文生视频 2.11× 加速;在所有 reference-based fidelity 指标上一致优于已有 cache 类方法 批判点评:「先跳步后补偿」+ 速度加速度正交分解,把 cache 类方法从经验调参推到了误差可控的工程范式;但分解效果对模型与数据集分布敏感,离线统计在 prompt 分布漂移时是否仍稳定,还需要更长尾的验证 3. Aurora:VLM Agent 把模糊指令拆解给视频编辑器 Aurora: Unified Video Editing with a Tool-Using Agent | 罗切斯特大学, Adobe | arXiv:2605.18748 关键词:视频编辑·VLM Agent·工具调用·统一扩散·欠规范请求 前序问题:现有统一视频编辑模型把文本、源视频、参考图喂进同一个 DiT 一把搞定替换 / 删除 / 风格 / 参考插入;设计很灵活,但默认用户已提供了 model-ready 的文本、参考图与空间锚定——真实请求里这些往往缺失 本文贡献:提出 Aurora:把工具增强 VLM agent 与统一视频扩散 transformer 配对——agent 把原始用户请求映射成对齐 transformer 条件通道的结构化编辑计划,先解决「文本和视觉欠规范」再生成;用监督数据训练完整编辑规划 + 参考图选取,再用偏好对训练鲁棒工具调用与指令润色;并发布 AgentEdit-Bench 评估「欠规范用户请求」下的 agentic 视频编辑能力 实验效果:在 AgentEdit-Bench 与两个现有视频编辑 benchmark 上,Aurora 显著超越纯指令 baseline;VLM agent 还能迁移到其他冻结的视频编辑模型,作为通用前置规划层 批判点评:把视频编辑里「用户输入欠规范」这一真实痛点显式拆解给 VLM agent 处理,是务实且可迁移的范式;但 agent 错误规划带来的级联编辑错误尚未充分量化,agent + DiT 的端到端延迟也是落地前要解决的关键 4. Lance:原生统一图像视频理解生成 MoE 模型 Lance: Unified Multimodal Modeling by Multi-Task Synergy | 字节跳动 Intelligent Creation Lab | arXiv:2605.18678 关键词:统一多模态·MoE·双流架构·原生训练·图像视频生成 前序问题:统一多模态模型要么靠模型尺寸堆量、要么沿用图文为主的设计,在「图像 + 视频 × 理解 + 生成 + 编辑」的全格子上很难一并打通;理解和生成两条能力路径互相干扰,多模态 token 异质性也让位置编码难以兼顾 本文贡献:提出 Lance:原生轻量级统一多模态模型,从零训练,采用「双流 MoE + 共享交错多模态序列」架构——联合上下文学习同时把理解与生成的能力路径解耦;引入 modality-aware RoPE 缓解异质视觉 token 的相互干扰;训练采用分阶段多任务范式,配合自适应数据调度同时强化语义理解与视觉生成 实验效果:图像和视频生成上大幅超越现有开源统一模型,同时保持强多模态理解能力,证明统一不必靠堆参数,「能力路径解耦」是更可持续的统一范式 批判点评:「统一上下文 + 解耦能力路径」的设计直击当前统一模型最大痛点:什么都做但什么都不极致;不过双流 MoE 的训练稳定性、与闭源旗舰模型的差距,以及在更长视频上的可扩展性仍待时间检验 5. StreamingEffect:单 H200 实时 720p 人像视频特效 StreamingEffect: Real-Time Human-Centric Video Effect Generation | 新加坡国立 Show Lab | arXiv:2605.17019 关键词:视频编辑·实时流式·人像特效·因果蒸馏·VideoEffect-130K 前序问题:电商直播、娱乐、Vlog 等场景需要实时人像视频特效,但缺数据、缺可部署的编辑模型;视频编辑的高效蒸馏几乎没人做,现有加速大多围绕文生视频,无法保住身份、背景与时序一致性 本文贡献:提出 StreamingEffect:上下文式视频编辑架构 + 因果 AR 学生蒸馏,把采样从 50 步压到 4 步;支持关键帧控制——可以在线注入参考特效帧并沿流传播,实现交互式编辑;同时构建 VideoEffect-130K 数据集——70K 特效视频 + 60K 编辑视频、600 类特效,是已知最大的人像视频特效数据集 实验效果:在单张 H200 GPU 上实现实时高质量 720p 视频编辑,数据集和方法共同填补了「人像视频特效实时编辑」的开源生态空白 批判点评:把视频编辑显式当作「实时流式 + 关键帧可控」问题来解,配套 130K 高质量数据是最大的工程贡献;但 600 类特效的覆盖度、4 步学生在长流式生成下身份漂移、以及 H200 之外的部署门槛,是产品化关键考验 6. MeanFlow-LSE:MeanFlow 蒸馏推到 80B 工业级模型 Stabilizing, Scaling & Enhancing MeanFlow for Large-scale Diffusion Distillation | 西电, 腾讯混元 | arXiv:2605.17834 关键词:MeanFlow·扩散蒸馏·大规模训练·HunyuanImage·少步生成 前序问题:MeanFlow 因公式简洁、表现强劲在少步蒸馏受关注,但优化目标不稳定 + 「mean-seeking bias」限制了它在大规模工业模型上的应用,蒸馏到 12B / 80B 级别经常训练崩溃或质量塌陷 本文贡献:(1) 引入 warm-up 技术,用离散解替代原 MeanFlow 微分解,避免 stop-gradient 项含未训好模型导致的训练崩溃;等模型对平均速度场有初步拟合后再切回微分解继续精炼;(2) 引入轨迹分布对齐作为辅助目标,缓解极少步推理下复杂目标分布上的 mean-seeking bias,让学生模型轨迹分布贴近教师 实验效果:在 FLUX.1-dev(12B)上超越现有蒸馏方法;推到 80B 的 SOTA 工业模型 HunyuanImage 3.0,依然展现出鲁棒泛化与强表现,是首次把 MeanFlow 蒸馏验证到 80B 量级 批判点评:warm-up + 轨迹分布对齐两步组合直击 MeanFlow 在大模型上的两大顽疾,工程上意义重大;但 warm-up 阶段 / 切换时机依赖经验设定,对不同 backbone 的迁移性还需更系统消融 7. I2V-Survey:图生视频扩散首份系统综述 Image-to-Video Diffusion: From Foundations to Open Frontiers | 港城大, 格里菲斯大学等 | arXiv:2605.17248 关键词:图生视频·扩散综述·I2V·taxonomy·开放挑战 前序问题:图生视频(I2V)已成为生成模型的核心方向,对内容一致性、身份保留与运动连贯性的要求都比通用视频生成更严;但现有论文大多把 I2V 当作通用视频生成的子话题,缺乏专门的 taxonomy 与系统分析 本文贡献:把扩散 I2V 单独立题,系统梳理任务定义、模型架构、数据集、评测指标,并按架构和训练范式给出 taxonomy;进一步抽取 4 个核心设计——条件编码 / 时序建模 / 噪声先验 / 时空上采样,配合典型应用与开放挑战 实验效果:为 I2V 这一独立子方向提供首份结构化综述,给出可复用的 4 大设计轴和应用-挑战双视角,便于研究者和工程团队系统理解技术路径 批判点评:把 I2V 从「视频生成的角落」抬到独立子方向,「4 个核心设计 + taxonomy」是清晰可用的索引框架;但综述截止时间内未能覆盖最新一波因果 / 实时 I2V,未来需要持续更新追踪 8. WavFlow:原始波形空间直生高保真音频 WavFlow: Audio Generation in Waveform Space | Meta AI, 东北大学 | arXiv:2605.18749 关键词:音频生成·波形空间·Flow Matching·V2A·T2A 前序问题:现代音频生成几乎都依赖潜空间压缩,引入额外复杂度并潜在丢失信息;但波形空间维度极高、能量分布稀疏,让扩散模型直接在波形上建模长期失败 本文贡献:提出 WavFlow:直接在原始波形空间生成高保真音频,无中间表示。通过 waveform patchify 把音频重塑为 2D token grid,引入 amplitude lifting 对齐信号尺度,使 flow matching 中的 x-prediction 优化稳定;并构建自动化数据流水线,整理 500 万视频-文本-音频三元组,从零学习细粒度声学模式 实验效果:在视频转音频 VGGSound 上取得 FD_PaSST 59.98 / IS_PANNs 17.40 / DeSync 0.44;在文生音频 AudioCaps 上 FD_PANNs 10.63 / IS_PANNs 12.62,与已有潜空间方法持平或超越,证明中间压缩并非高质量音频合成的必要条件 批判点评:「不要 latent,直接干波形」是颇有勇气的反潮流路线,patchify + amplitude lifting 是让 flow 在波形上稳的关键工程;但波形 flow matching 的训练成本与采样开销比 latent 方案高得多,工业级落地需要更激进的加速 9. TAPE:时序感知 token 剪枝免训加速视频扩散 Temporal Aware Pruning for Efficient Diffusion-based Video Generation | 匹兹堡大学, IIT, Rutgers, Microsoft AI | arXiv:2605.17837 关键词:视频扩散·token 剪枝·训练-free 加速·时序一致性·ViT 前序问题:视频扩散 ViT 架构出视频质量高,但长时空序列上的注意力计算极贵;已有 token 剪枝多基于 attention、按帧独立操作,难以保住跨帧时序连贯,naive 应用会产生背景不稳、闪烁、画质下降 本文贡献:提出 TAPE 训练-free 时序感知剪枝:(i) 时序平滑对齐相邻帧的 token 重要性,抑制选择抖动;(ii) 在选定层做 token 重选,使剪枝匹配各层的不同语义关注,避免误差在特定区域累积;(iii) 时间步级预算调度——早期噪声重的步骤激进剪、后期保真关键步骤放宽 实验效果:显著提速的同时保持高视觉保真度,超越前期 token reduction 方法;作为 plug-in 训练-free 加速,能直接套到现有视频扩散模型上 批判点评:把 token 剪枝从「每帧独立」拉回「时序感知」是补足视频域专属约束的正确方向,三项设计互相协同;但激进时间步预算调度对极长视频的累积误差、以及 ViT 之外架构的迁移性仍是开放问题 10. SafeDiffusion-R1:在线 GRPO + CLIP 引导奖励安全对齐 SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training | MBZUAI | arXiv:2605.18719 关键词:扩散安全·在线 RL·GRPO·CLIP 引导·内容审核 前序问题:扩散模型移除预训练中学到的不安全内容,现有方法要么需要昂贵的 unsafe-text 配 safe-image 监督数据,要么走离线 RL / SFT 在合成数据上训,灾难性遗忘严重,生成质量明显劣化,扩展性差 本文贡献:提出在线 RL 框架:在正负 prompt 上跑 GRPO;引入 steering reward 机制利用 CLIP 嵌入空间的固有性质——把文本表示推向正向安全方向、远离负向,无需为每个安全维度单独训 reward 模型;在线策略让模型从包括显式不安全 prompt 在内的多样请求中学习而不灾难性遗忘 实验效果:不当内容下降到 18.07%(vs SD v1.4 的 48.9%),裸露检测 15 vs baseline 646;GenEval 组合生成质量从 42.08% 提升到 47.83%;安全增益泛化到 7 类未见有害 prompt 类别 批判点评:把「安全对齐」从离线 SFT 推到在线 GRPO,叠加 CLIP 嵌入引导避开 reward 模型训练,工程友好且可扩展;但 CLIP 嵌入方向偏向、对抗性提示下 steering 的鲁棒性,仍需对抗压力测试持续追踪 11. CGPO:按 reward 方差自适应难度的文生图 RL Curriculum Group Policy Optimization: Adaptive Sampling for Unleashing the Potential of Text-to-Image Generation | 北邮, 中国电信 TeleAI | arXiv:2605.17807 关键词:文生图·GRPO·课程学习·自适应采样·RL 对齐 前序问题:文生图 RL(特别是 GRPO 系)训练时统一采样策略忽视了样本难度与模型当前能力的匹配,训练效率低,模型常在已掌握或还远不能掌握的 prompt 上空转 本文贡献:提出 CGPO 自适应课程训练框架:每条 prompt 生成一组图像由 reward 模型打分,用组内 reward 方差作为「prompt 不一致性」的在线 proxy——方差高说明模型部分掌握但未稳定,正是最该多采的可学习 prompt,从而提高其采样概率;再用比例公平优化做类别校准,平衡多类别数据集的训练难度 实验效果:在 GenEval、T2I-CompBench++、DPG Bench 上一致提升生成性能,为 GRPO 类文生图 RL 提供可即插即用的课程化增强 批判点评:用 reward 方差当「可学习 prompt」proxy 是优雅且无需额外标注的设计;但 reward 模型本身的偏差会被该 proxy 放大,长期训练下需要监控 reward hacking 12. DiRotQ:PCA 旋转感知 W4A4 DiT 量化 DiRotQ: Rotation-Aware Quantization for 4-bit Diffusion Transformers | d-Matrix | arXiv:2605.16732 关键词:DiT·4-bit 量化·PCA 旋转·W4A4·FLUX 前序问题:DiT 出图质量 SOTA 但推理代价高;激进 PTQ 到 4-bit 能省算力却经常严重掉点;已有 smoothing / mixed precision / rotation / low-rank residual 等方法都只能部分缓解,与 FP16/BF16 仍有可见差距 本文贡献:提出 DiRotQ W4A4 PTQ 框架——通过 PCA 找到激活方差主成分所在的低秩子空间,对该子空间用更高精度保留,其余分量量化到 4-bit;推理时用校准得到的正交变换把激活旋转到 PCA 基,逆旋转离线融入权重;再叠加 GPTQ 的权重量化形成完整 W4A4 系统,并给出 Triton kernel 端到端加速 实验效果:在 PixArt-Σ MJHQ-30K 上取得 FID 15.9 / PSNR 19.1 dB,超越 SVDQuant(FID 18.9 / 17.6);12B FLUX.1-dev 在单卡 RTX 4090 上显存降 2.1×,推理比 BF16 加速 2.3×;并首次提出 VLM-as-a-Judge 评测协议 批判点评:把 PCA 子空间高精度保留 + 离线融入权重的设计,把旋转量化做到了 W4A4 的较好均衡,落地友好;但 PCA 校准对长尾 prompt 的覆盖度、VLM-as-a-Judge 与人类偏好的对齐度,是后续要追踪的关键 13. SpectralProgressive:频谱先粗后细动态扩展分辨率 Spectral Progressive Diffusion for Efficient Image and Video Generation | Stanford | arXiv:2605.18736 关键词:频谱扩散·渐进分辨率·训练-free 加速·视频生成·去噪调度 前序问题:扩散模型在频域里隐式自回归生成——低频先出、高频后出;在噪声主导的早期对全分辨率做计算大量冗余,但目前没人把这一观察系统化用于推理加速 本文贡献:提出 Spectral Progressive Diffusion 通用框架——沿去噪轨迹渐进扩展分辨率;设计频谱噪声扩展机制,并从模型自身的功率谱推出最优分辨率调度;支持 training-free 加速和一种新的微调配方,进一步同时改善效率与质量 实验效果:在多个 SOTA 预训练图像和视频生成模型上获得显著加速,且画质保持;为预训练扩散模型提供一条「无需重训」的频谱渐进推理路线 批判点评:把扩散「频谱自回归」的隐式行为显式化为分辨率调度,思路清晰且与 cache 等加速正交;但频谱调度对噪声分布的假设强依赖训练分布,跨数据集与跨模态迁移性需更广验证 趋势观察 NVFP4 把长视频生成训推一体化推到实用门槛 — LongLive-2.0 把 NVFP4 从纯推理量化推到训练 + KV cache + 异步流式 VAE 解码全链路,5B 模型跑出 45.7 FPS——下一代视频生成基础设施开始与 Blackwell 硬件深度协同,长视频 AR 真正走向「可部署的实时」 扩散加速从 cache 推到「频谱 + 时序 + 量化」三路同时压榨 — TACache 从轨迹正交分解给跳步补偿、TAPE 从时序感知做 token 剪枝、SpectralProgressive 从频谱调度动态扩展分辨率、DiRotQ 从 PCA 旋转把 DiT 推到 W4A4——扩散推理优化第一次在「时间步 / 空间 token / 数值精度 / 频谱通道」四个轴上系统并进 视频编辑进入 agent 时代 — Aurora 把模糊用户请求交给 VLM agent 拆解成结构化编辑计划再喂给 DiT;StreamingEffect 配套 130K 数据 + 4 步因果蒸馏直接做实时人像特效——视频编辑从「模型一把吃下所有输入」转向「agent 解码意图 + 模型专注生成」 统一多模态从堆参数走向「能力路径解耦」 — Lance 用「双流 MoE + 共享交错序列」把理解与生成的能力路径显式解耦,配合 modality-aware RoPE 处理 token 异质性;证明轻量原生设计也能在「图像 + 视频 × 理解 + 生成 + 编辑」全格子上同时领先 扩散 RL 对齐从 reward 工程走向 reward 机制 — SafeDiffusion-R1 用 CLIP 嵌入做 steering reward 替代专门 reward 模型;CGPO 把 reward 方差当 prompt 难度 proxy 实现自适应采样——扩散 RL 后训练正在从「堆 reward 模型」转向「挖 reward 信号本身的几何」 人工智能炼丹君 整理 | 2026-05-19 更多 AIGC 论文解读,关注微信公众号「人工智能炼丹君」 每日更新 · 论文精选 · 深度解读 · 技术脉络 微信搜索 人工智能炼丹君 或扫描下方二维码关注
2026年05月19日
9 阅读
0 评论
0 点赞
粤ICP备2021042327号