标签搜索

Jefxiong

累计撰写 68 篇文章
累计收到 8 条评论

首页
/
AIGC
/
正文

AIGC

AIGC 每日速读|2026-05-26|百度ERNIE-Image开源8B DiT追平闭源

人工智能炼丹君

2026-05-26 / 0 评论 / 93 阅读 / 正在检测是否收录...

05/26

今日 AIGC 论文速览

今日共 11 篇 · 国产开源文生图基础模型 1 篇 · 音视频联合生成与编辑 3 篇 · 视频生成训练范式革新 2 篇 · few-step 蒸馏与自回归视频蒸馏 2 篇 · 推理时自适应与视频编辑 3 篇

重点论文标题列表

ERNIE-Image：百度8B DiT开源逼近闭源SOTA
Baton：首引语义蓝图驱动音视频联合生成
⚡ SpongeBob：首个端到端音视频联合编辑Sync+30%
StreamChar：长时流式角色音视频实时生成
PixelWizard：原生2K/4K视频生成10倍加速

今日论文速览

1. ERNIE-Image：百度8B DiT开源逼近闭源SOTA

ERNIE-Image Technical Report | 百度 Baidu ERNIE Team | arXiv:2605.25347

关键词：ERNIE-Image·百度·8B DiT·MT-DMD 蒸馏·industrial-grade

⚠️ 前序问题：开源文生图模型与闭源顶级系统在指令跟随、文字渲染、美学质量上仍有明显差距。差距主要来自两件事：预训练数据噪声大且长尾概念覆盖差；后训练人类偏好对齐的稳定性不足，蒸馏期间还会出现 capability drift（蒸馏前能做的事，蒸馏后做不到了）
本文贡献：ERNIE-Image：8B 单流 DiT 架构开源文生图基础模型。预训练用 bottom-up 数据管线（细粒度分类 + 富 caption + 美学评估 + 分层采样）压噪同时保长尾；后训练 top-down 高需求场景 + 多样化 prompt + 稳定化 DPO；ERNIE-Image-Turbo 实现 8-NFE 高效生成，配套 MT-DMD 蒸馏算法缓解 capability drift。配套发布 industrial-grade ERNIE-Image-Aes 美学模型和 ERNIE-Image-Aes-1K benchmark（首个针对真实场景的美学评测基准）
实验效果：开源模型中达到 leading 表现，在指令跟随/文字渲染/美学三项接近顶级闭源商业模型；模型权重和美学评测资源全部开源，覆盖完整工业流水线（包括 Prompt Enhancer 把简短意图扩展为结构化视觉描述）
批判点评：「8B DiT + bottom-up 预训练 + top-down 后训练 + 稳定 DPO + Turbo 蒸馏」是教科书级的工业开源大模型训法，单独哪一项都不算新颖，但全部端到端打通、配套基础设施 + 评测开源是最大贡献。但闭源 SOTA（GPT-Image / Imagen 4 / Midjourney v7）的差距具体几何缺乏精确量化对比，且 industrial-grade aesthetic model 的偏好可能强烈反映中文用户审美，国际场景适用性需观察

2. Baton：首引语义蓝图驱动音视频联合生成

Baton: Explicit Semantic Blueprints for Joint Video-Audio Generation | 复旦大学, 腾讯混元 | arXiv:2605.25195

关键词：音视频联合生成·explicit planning·VA-Planner·腾讯混元·Relative RoPE

⚠️ 前序问题：开源扩散模型做音视频联合生成时，两个模态的去噪轨迹各自为政，导致音画不同步、长时一致性差。根因：现有方法用现成 encoder 的粗粒度 text embedding 引导音/视频去噪——这丢掉了细粒度语义，更关键的是缺少一个跨模态的「长 horizon 共享规划」
本文贡献：提出 Baton：首个引入 explicit semantic planning 的音视频联合生成框架。VA-Planner（带双语义对齐塔的多模态 LLM）让可学习 query 同时 cross-attend 视频和音频特征，吐出一对语义对齐的音/视频 planned token（关键帧级蓝图）；这些 plan token 通过 cross-attention 注入扩散 backbone，与粗 text embedding 互补；进一步提出 Relative Semantic RoPE 把 planned token 和 latent 映射到共享时空坐标系，让 latent 准确 attend 到对应语义线索
实验效果：在标准音视频联合生成 benchmark 上定性定量都显著超过基线；首次把「先规划后渲染」的范式从单模态扩散扩展到跨模态联合扩散——和昨天 Bernini「MLLM 规划 + DiT 渲染」是同向延续
批判点评：「explicit semantic planning」做跨模态联合生成是非常对的方向——粗 text embedding 当指挥棒本来就太宽松。VA-Planner + Relative Semantic RoPE 解决了「plan 怎么对齐 latent」的工程关键。但 VA-Planner 多了一次 MLLM 推理，端到端时延和显存对比单 DiT 联合扩散需要进一步说明；planned token 颗粒度是 keyframe-level 而非 frame-level，复杂动作对齐上限仍受限

3. SpongeBob：首个端到端音视频联合编辑Sync+30%

SpongeBob: Sync-Aware Harmonious Audio-Visual Generative Editing | 中科大 USTC | arXiv:2605.25193

关键词：音视频联合编辑·端到端·Sync-Aware·Context-Aware·USTC

⚠️ 前序问题：物理世界的视觉和声音本就耦合，但现有视频编辑全部是「视觉编完，再单独配音/换音」的解耦 pipeline，没有双向模态交互。结果是：(i) 音画不同步；(ii) 改动后的画面和保留下来的原音之间出现语义冲突（看到打字键盘却继续是说话声）
本文贡献：SpongeBob：首个端到端音视频联合编辑框架，带双向 cross-modal 交互。Sync-Aware Mechanism 通过双向注意力 + 时序对齐 + 空间约束让视觉编辑跟声音事件对齐；Context-Aware Module 用声/像 context attention 防止编辑后语义冲突；Sync-Preserving Training and Guidance（SPTG）在保持画质的同时强化对齐。配套构建可扩展数据管线 + subject-level 大规模数据集 + SpongeBob-Bench 评测
实验效果：Sync-C（音画同步指标）+30%、Ctx-F1（上下文一致性）+12.5%，显著超越现有 baseline；首次把「音视频编辑」推到 explicit joint 范式，让「改了画也改对应音」成为可能
批判点评：把音视频编辑从「解耦串行」改成「联合并行」是必要的下一步，Sync-Aware + Context-Aware 双模块设计简洁；但训练数据规模和评测集都依赖作者自建，第三方复现成本高；编辑场景的覆盖（替换/插入/删除）和真实创作工作流的对接深度还需后续验证

4. StreamChar：长时流式角色音视频实时生成

StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration | 阿里通义实验室 | arXiv:2605.25659

关键词：流式生成·角色动画·decoupled orchestration·阿里通义·sink-chunk memory

⚠️ 前序问题：实时流式的角色音视频联合生成要同时满足：(1) 说出指定 transcript；(2) 跨 chunk 保持视觉身份；(3) 严格的播放预算（低延迟）。三个目标相互掣肘——逐 chunk 的自回归生成会累积 transcript-audio 错位和视觉漂移；为低延迟而做的 few-step 蒸馏又会牺牲空间多样性和时序质量
本文贡献：StreamChar：把「长 horizon 规划」与「短窗音视频去噪」解耦的流式框架。LLM 编排器（orchestrator）用 transcript 和历史上下文产出帧对齐的音频条件；joint audio-video DiT 做局部双向去噪并带 reference + motion-frame conditioning；两阶段蒸馏先压缩 sampler 再用 online chunk rollout 微调 student；progress-aware pointer 在 rollout 训练时把部分 transcript 与生成音频对齐；sink-chunk memory 提供持久视觉 anchor 缓解长 horizon 漂移
实验效果：把流式 character animation 这个被低延迟严重压制的方向推到「长 horizon + 严格时延 + 身份稳定」可同时满足；解耦式架构让 LLM 做规划、扩散 backbone 做细节生成成为长视频流式生成的可行新范式
批判点评：把「orchestrator vs denoiser」解耦解决了流式 + 长时生成两难，sink-chunk memory + progress pointer 是非常针对性的工程设计。但 LLM orchestrator 引入额外推理路径，对端到端时延的真实贡献需要更细评测；joint audio-video DiT 蒸馏后的 student 与教师模型 audio-visual coherence 的差距上限值得跟踪

5. PixelWizard：原生2K/4K视频生成10倍加速

PixelWizard: Towards Efficient High-Fidelity Video Generation at Ultra-Large Spatial Resolution | 港科大广州, 小米 | arXiv:2605.25801

关键词：高分辨率视频·原生 2K/4K·10× 加速·分层 anchor·小米

⚠️ 前序问题：高分辨率视频生成有两个相互耦合的瓶颈：(1) token 序列爆炸让优化偏向局部纹理而牺牲全局连贯（结构坍塌）；(2) 训练成本巨大、推理延迟严重。简单堆分辨率根本不可持续
本文贡献：PixelWizard 把全局结构建模和细粒度细节合成分层解耦：先建立一个紧凑的时空 anchor 浓缩稠密结构先验，再以此引导高分辨率细节生成，缓解局部优化偏置；引入 Noise-Span Aligned Shortcut Training 让模型可以「大步」遍历生成轨迹（突破推理瓶颈）；Exponential Index-Biased Sampling + Adaptive Noise-Span Calibration 把优化与高分辨率网格的偏移噪声 schedule 对齐，实现 robust few-step 推理且无需蒸馏的开销
实验效果：原生 2K/4K 视频生成加速 >10×，同时保证视觉质量；不依赖蒸馏（避免 capability drift），是高分辨率视频生成的「全栈式」效率优化方案
批判点评：分层 anchor + shortcut training 思路很正——直接面对「token 爆炸」根因。10× 加速 + 不蒸馏的组合非常吸引人；但与最新蒸馏路线（如 DMD2/Causal Distill）的端到端对比缺失，结构 anchor 是否能跨场景（人物运动/复杂相机）稳定泛化需要更细评测

6. Paris 2.0：首个去中心化预训练视频生成FVD减半

Paris 2.0: A Decentralized Diffusion Model for Video Generation | Bagel Network | arXiv:2605.26064

关键词：去中心化训练·DDM·视频生成预训练·FVD 2×·Bagel

⚠️ 前序问题：训视频生成模型几乎都要 monolithic GPU 大集群，开源社区无法独立完成时序连贯的视频生成预训练。前作 Paris 1.0 证明了图像生成可以分布式训练（去中心化扩散 DDM），但「时序连贯的视频生成」在 decentralized 训练范式下仍是 open problem
本文贡献：Paris 2.0：首个通过去中心化（decentralized）计算完成预训练的视频生成模型。训练 recipe 基于 Paris 1.0 的开源 DDM 扩展到视频领域，关闭了「分布式训视频」最后一块短板。同 compute budget 下与 monolithic 模型在相同数据上对照评估
实验效果：在 low-resolution 文生视频训练上，相同总算力预算下相比 monolithic baseline，FVD 从 561.04 降到 279.01（~2.0× 提升），CLIP 文本-视频相似度与美学分数双双提升。证明 decentralized 训练不仅可行而且能反超 monolithic——开源社区独立训视频基础模型门槛被显著拉低
批判点评：「分布式 GPU 也能训视频生成」是范式级的工程突破——把视频生成预训练的算力门槛从「必须有大集群」拉到「能聚起多组消费级 GPU」。同算力预算下反超 monolithic 是惊喜数字。但还停留在 low-resolution 段位，高分辨率长视频下分布式通信开销是否仍能 hold 住，是后续最大悬念

7. RTDMD：4步生成同时蒸馏对齐刷新SOTA

Reinforcing Few-step Generators via Reward-Tilted Distribution Matching | Sea AI Lab, 港科大 | arXiv:2605.26108

关键词：few-step 扩散·蒸馏·RLHF·GRPO·FLUX.2

⚠️ 前序问题：few-step 扩散蒸馏已能让图像生成又快又好，但和人类偏好对齐还是难——直接套 RLHF 会破坏蒸馏后的分布稳定性，难以兼得「步数少 + 画质高 + 对齐人类偏好」
本文贡献：RTDMD（Reward-Tilted Distribution Matching Distillation）：两阶段统一蒸馏与 RL 对齐。理论上证明 minimizing KL 到「reward-tilted teacher」自然分解为分布匹配 + reward maximization 两项。Stage1：AC-DMD（Ambient-Consistent DMD）做子区间分布匹配 + consistency 正则化，让 fake score 模型追上漂移的 generator；Stage2：混合 policy gradient——GRPO-style estimator 处理随机中间步 + direct reward backprop 处理确定性 final step；进一步用 step-subset GRPO（SubGRPO）降方差
实验效果：在 SD3 / SD3.5 / FLUX.2 上仅 4 步推理就刷新 preference / aesthetic / compositional 三类指标 SOTA，超越此前所有 few-step 文生图方法，代码模型开源
批判点评：把蒸馏和 RL 对齐写成同一个 KL 优化问题在理论上很优雅，工程实现 AC-DMD + 混合 policy gradient + SubGRPO 三件套也都是合理设计；但 GRPO 在 4 步采样下的方差估计仍可能高，跨更多底模（SD3.5 / FLUX 之外）的稳定性需要更多验证

8. AFD：on-policy黑盒蒸馏自回归视频

On-Policy Adversarial Flow Distillation for Autoregressive Video Generation | 新加坡国立大学 NUS | arXiv:2605.26105

关键词：自回归视频·黑盒蒸馏·on-policy·flow-matching·Bradley-Terry

⚠️ 前序问题：自回归视频生成器对流式、长 horizon、交互应用非常有吸引力，但把强黑盒 teacher 蒸馏成 causal student 极其困难：student 必须在自己 rollout 分布下学习，而实际 teacher 通常只暴露 prompt-conditioned 完成的视频，结构/容量/时序设计/采样 schedule 都不同。这让 SFT 是 off-policy 的、score-based 蒸馏不适用、直接对抗模仿对去噪步级 credit assignment 又太稀疏
本文贡献：AFD（Adversarial Flow Distillation）：异构黑盒视频蒸馏的 on-policy 框架。同 prompt 同时 query teacher 和 rollout 当前 student；训 prompt-paired Bradley-Terry discriminator 估计 clean-sample 教师-学生差异；把 on-policy advantage 转成 forward-process flow-matching 更新到 student 自己的 noised state 上。这套设计让 student 拿到稠密 velocity-field 监督，且无需 teacher score / latent / 去噪轨迹 / step alignment / reverse-chain RL
实验效果：把「自回归视频生成 + 黑盒强 teacher」蒸馏从死局拉到可行——这恰是流式视频 + 大闭源 teacher 时代的最关键工程问题。on-policy 学习避免分布漂移，flow-matching 转换提供稠密信号，是 RTDMD 在「自回归视频」侧的对偶贡献
批判点评：把「黑盒、异构、自回归视频」三个最难维度同时解决，思路非常对——on-policy + 对抗 + flow-matching 转换是当前最合理的组合。但 Bradley-Terry discriminator 在视频域的样本效率与训练稳定性、以及面对真正巨大闭源 teacher（如商用 Sora / Veo 级别）的 query 成本，是工程落地的真实门槛

9. TT-SAC：talking-head推理时自适应免训练

Test-Time Self-Adaptive Conditioning for Stable Audio-Driven Talking-Head Generation | 格里菲斯大学 Griffith | arXiv:2605.25488

关键词：talking-head·推理时自适应·免训练·feedback loop·身份保持

⚠️ 前序问题：音频驱动 talking-head（AniTalker / FLOAT / Sonic 等）当前主流是：一张静态参考图条件整段视频生成。但静态身份条件 vs 动态面部运动天然错配，导致 identity drift、时序不一致、感知质量下降
本文贡献：TT-SAC（Test-Time Self-Adaptive Conditioning）：完全 parameter-free 的推理时框架，让预训练 talking-head 模型在生成过程中自适应调整 conditioning，不需要重训、不需要梯度、不需要任何额外监督。把 generator 与 encoder 组成 feedback loop：generator 输出再被 encoder 编码，构造与时序动力学对齐的精修 conditioning；单步自适应即近似 self-consistent equilibrium，稳定跨时长的身份与运动
实验效果：把 talking-head 的「静态参考图」假设彻底打破——同一组预训练权重，仅靠推理时 feedback loop 即可显著缓解 identity drift 和时序退化；零训练成本即可升级现有 talking-head 模型，是非常实用的 plug-in 改造
批判点评：把 generator-encoder feedback 当作 implicit fixed-point 迭代是聪明的——既廉价又对预训练模型友好。但 single adaptation step 是否真能稳定逼近 self-consistent equilibrium 取决于具体模型，对发生面部大幅度运动或镜头切换时的鲁棒性需要更细评测；feedback 单步 vs 多步的边际收益曲线也值得展开

10. RVEDiT：MLLM注入Token让DiT分粒度推理编辑

Reasoning to Align: Implicit Reasoning in Diffusion Transformers for Video Editing | 华为 | arXiv:2605.24674

关键词：视频编辑·DiT·MLLM Token·分粒度路由·华为

⚠️ 前序问题：指令视频编辑需要按自然语言改源视频，同时保留无关内容、保持时序一致。但现有 DiT 编辑器有两个结构性缺陷：(1) 条件信号不分粒度灌入所有 transformer block，单一 token 流既要编码全局意图又要编码细粒度证据；(2) cross-attention 模式只受 pixel-level 重建间接监督，内部推理过程完全不受约束
本文贡献：RVEDiT：implicit Reasoning Video Editing DiT。两个互补组件：(i) Granularity-Routed Token Conditioning——从 MLLM 蒸馏出 learnable editing token 路由到浅层 block，深层 block 留给原生视觉/文本 token，自然形成 coarse-to-fine 编辑过程；(ii) Reference-Anchored Attention Alignment——训练时用参数共享 reference 分支，最大化编辑/参考分支注意力特征的互信息，正则化内部推理但推理时零额外开销
实验效果：在标准指令视频编辑 benchmark 上一致超过 SOTA，对 localized 和 compositional 编辑提升最大；引入 MLLM 推理但部署时单分支，性价比高
批判点评：「分粒度路由 conditioning + reference 互信息对齐」两个手段都直击 DiT 编辑器的结构性病灶，思路非常清晰。但 MLLM 提供的 editing token 是离线蒸馏，可能不能捕捉新颖指令；reference 分支在训练时翻倍显存，长视频上的可扩展性需评测

11. Squeeze-MLLM：MLLM+VAE双条件根治主体生成贴图

Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation | 多伦多大学 U of T | arXiv:2605.26111

关键词：Subject-driven·MLLM·VAE 身份·DLA·copy-paste

⚠️ 前序问题：subject-driven 生成（保留参考主体身份 + 跟随文字指令）此前主流是 text 和 reference 各编各的——这天然削弱跨模态推理，并导致典型的 copy-paste artifact（参考图被原样贴上去）。最近 MLLM + diffusion 框架改善了指令跟随，但忽略了身份保持
本文贡献：把 diffusion model condition 在 MLLM 上（让 text 和 reference 联合编码），同时用 VAE 做 identity conditioning；新设 Dual Layer Aggregation (DLA) 模块聚合 MLLM 多层级特征做最优 conditioning；用多阶段去噪策略在推理时渐进式平衡 MLLM 提供的语义和 VAE 提供的细节身份
实验效果：把多模态理解和身份保持调和得很好，缓解了 copy-paste 问题，人类偏好评测上 subject-driven 生成超越现有方法；项目页面开放
批判点评：「MLLM 编联合语义 + VAE 守身份细节」的双通道是非常合理的分工——比纯 MLLM/纯 reference encoder 都更接近问题本质。DLA + 多阶段去噪是工程上的细致打磨；但 VAE 通道也可能引入贴图倾向（VAE 重建本身就有 identity 偏置），与最新 IP-Adapter / OmniGen 等的端到端对比是否在所有场景占优需要更细评测

趋势观察

国产开源文生图基础模型加速对标闭源 SOTA — 百度 ERNIE-Image 8B 单流 DiT 系统化打通预训练 bottom-up 数据 + 后训练 top-down + 稳定 DPO + Turbo 蒸馏 + 工业 aesthetic 评测全栈，且模型/数据全部开源——开源阵营在指令跟随/文字渲染/美学三项已逼近 GPT-Image/Imagen/Midjourney 等闭源顶级系统
音视频联合生成进入「规划 + 流式 + 编辑」三角范式 — Baton 用 VA-Planner（多模态 LLM）吐出音/视频共享语义蓝图驱动联合扩散；SpongeBob 通过双向 cross-modal 交互做端到端音视频联合编辑；StreamChar 用 LLM orchestrator 解耦长 horizon 规划与短窗去噪做流式角色音视频——音视频从「各编各的」彻底走向「联合规划 + 联合渲染」
视频生成同时突破两个壁垒：分辨率天花板与训练算力门槛 — PixelWizard 把全局 anchor 与细节合成分层解耦，加上 Noise-Span Aligned Shortcut Training，原生 2K/4K 视频生成提速 10× 且不蒸馏；Paris 2.0 首次完成 decentralized 视频生成预训练，同算力下 FVD 从 561→279（2×）反超 monolithic baseline——视频生成的「分辨率天花板」被工程化突破，「训练必须大集群」被打破
few-step 蒸馏从图像扩散扩展到自回归视频生成 — RTDMD 把蒸馏和 RL 对齐写成同一 KL 优化（4 步刷 SD3/FLUX.2 SOTA）；AFD 把 on-policy 对抗 + flow-matching 转换组合用于黑盒异构 teacher 蒸馏 causal 视频 student——证明「步数少 + 画质高 + 对齐人类偏好 + 流式自回归」可以同时拿到，且不依赖白盒 teacher score / 轨迹访问
推理时自适应/编辑成为零训练能力升级标配 — TT-SAC 让 talking-head 模型在推理时通过 generator-encoder feedback loop 自适应 conditioning（免训练、免梯度）；RVEDiT 把 MLLM 推理 token 路由到 DiT 浅层 block 形成 coarse-to-fine 编辑；Squeeze-MLLM 用 MLLM+VAE 双通道在推理时渐进平衡语义与身份——「不重训也能拿到新能力」正在成为生成模型的标准升级路径

人工智能炼丹君整理 | 2026-05-26