标签搜索

Jefxiong

累计撰写 65 篇文章
累计收到 8 条评论

首页
/
AIGC
/
正文

AIGC

AIGC每日速读|2026-05-06|DiT-MoE统一多模态模型25B仅激活3B，运动感知缓…

人工智能炼丹师

2026-05-06 / 0 评论 / 1 阅读 / 正在检测是否收录...

05/06

今日核心看点

DiT-MoE统一多模态25B(Mamoda2.5)
运动感知缓存加速6.28x(MotionCache)
线性化SD3.5仅1h微调(T5)
64层RVQ音乐生成(Khala)

今日概览

今日 arXiv cs.CV 视觉生成相关论文共 10 篇。

方向分布：

统一多模态生成 1 篇 (Mamoda2.5)
视频/图像生成加速 3 篇 (MotionCache, SD3.5-T5, TOC-SR)
音乐生成 1 篇 (Khala)
评测基准 2 篇 (BRITE, Pixel Perfect)
图像编辑与数据集 1 篇 (ScribbleEdit)
3D/人体生成 2 篇 (BlenderRAG, HumanSplatHMR)

今日论文速览

1. Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE

Mamoda2.5：DiT-MoE统一多模态模型，25B参数仅激活3B，视频编辑加速95.9x | Unknown (Industry) | arXiv:2605.02641

关键词： 统一多模态·DiT-MoE·AR-Diffusion·视频生成·蒸馏加速

前序工作问题： 多模态理解与生成模型通常分离训练，缺乏统一框架；视频编辑推理速度慢难以部署

贡献： 提出统一AR-Diffusion框架，为Diffusion Transformer配备细粒度MoE（128专家Top-8路由），25B参数仅激活3B；联合少步蒸馏与强化学习将30步压缩为4步

效果： VBench 2.0视频生成顶尖，视频编辑创新高；匹敌Kling O1等闭源模型；编辑推理加速95.9x，广告场景成功率98%

批判点评： 128专家路由的负载均衡和专家坍缩问题未详细分析；仅激活3B参数是否在复杂多模态推理任务上存在能力天花板待验证

2. MotionCache: Motion-Aware Caching for Efficient Autoregressive Video Generation

MotionCache：运动感知缓存加速自回归视频生成6.28x | Xiamen University | arXiv:2605.01725

关键词： 视频生成加速·运动感知·缓存复用·SkyReels-V2·MAGI-1

前序工作问题： 自回归视频生成因逐步去噪计算量巨大难以部署；现有缓存策略采用粗粒度块级跳步，忽略像素级运动动态

贡献： 形式化证明缓存误差与残差不稳定性的关联，提出利用帧间差分作为像素级运动代理的粗到细策略：预热阶段建立语义连贯，随后按运动权重动态调整每Token更新频率

效果： SkyReels-V2加速6.28x（VBench仅降1%），MAGI-1加速1.64x（VBench仅降0.01%），代码已开源

批判点评： 帧间差分作为运动代理过于简单，无法区分相机运动与物体运动；预热阶段长度为超参数，对不同内容敏感

3. SD3.5-T5: Linearizing Vision Transformer with Test-Time Training

用TTT线性化SD3.5：1小时微调实现1.47x推理加速 | Tsinghua University / ICML 2026 | arXiv:2605.02772

关键词： 线性注意力·TTT·SD3.5·推理加速·权重迁移

前序工作问题： Softmax注意力二次复杂度限制高分辨率生成效率；从头训练线性注意力模型成本过高

贡献： 发现TTT的两层动态公式与Softmax注意力结构对齐，可直接继承预训练权重；引入Key实例归一化和轻量局部性增强模块保持表征一致性

效果： 4xH20 GPU仅1小时微调，文生图质量与原模型可比；1K分辨率1.32x加速，2K分辨率1.47x加速（ICML 2026）

批判点评： 1.47x加速幅度相比FlashAttention等工程优化的叠加优势有限；TTT的额外在线学习开销在批处理场景的表现未报告

4. Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation

Khala：64层RVQ统一声学Token语言建模，无需语义Token阶段 | Tsinghua University | arXiv:2605.01790

关键词： 音乐生成·声学Token·RVQ·语言建模·粗到细

前序工作问题： 现有音乐生成将语义Token与声学Token分离为异构表示空间，系统复杂且信息传递断裂

贡献： 证明文本-声学对齐可在纯声学Token语言建模中涌现无需语义Token阶段；设计64层RVQ统一表示，两阶段粗到细框架固定62步推理，混合注意力训练

效果： 高保真音乐生成，文本-人声对齐自然涌现；超分辨率模型从骨干迁移学习显著提升收敛和质量

批判点评： 64层RVQ的编码复杂度和码本利用率未详细分析；固定62步推理对不同长度音乐的效率适配性待验证

5. BRITE: A Benchmark for Reliable and Interpretable T2V Evaluation on Implausible Scenarios

BRITE：首个含音视频对齐的T2V评测基准，实测Sora 2/Veo 3.1/Gen4.5 | Unknown | arXiv:2605.00873

关键词： T2V评测·不合理场景·音视频对齐·人工循环·QA可解释

前序工作问题： 现有T2V评测忽视不合理场景和音视频对齐维度；全自动MLLM评测易受幻觉和歧义影响

贡献： 统一不合理场景提示、细粒度音视频一致性评估和QA式可解释评测三大组件；人工循环协议保障可靠性

效果： 实测Sora 2/Veo 3.1/Runway Gen4.5/Pixverse V5.5/Qwen3Max五大模型，发现物体-动作绑定和音视频同步存在显著性能缺口

批判点评： 仅评测5个模型样本量有限，结论的统计显著性和可推广性存疑；人工循环协议扩展成本高

6. TOC-SR: Task-Optimal Compact Diffusion for Image Super Resolution

TOC-SR：贝叶斯优化发现紧凑扩散架构，6.6x参数压缩单步超分 | Unknown (Industry) | arXiv:2605.02767

关键词： 图像超分·紧凑扩散·贝叶斯优化·蒸馏·单步推理

前序工作问题： 扩散超分模型因大参数量和多步采样难以在边缘设备部署

贡献： 从16通道隐扩散模型出发，通过特征级生成蒸馏构建高效替代块，用epsilon约束贝叶斯优化搜索最优紧凑架构，再将多步过程蒸馏为单步生成器

效果： 参数量压缩6.6x，计算量减少2.8x，单步推理保持强重建质量

批判点评： NAS搜索成本本身较高，一次性投入是否划算取决于部署规模；蒸馏后模型在困难退化场景的鲁棒性未评估

7. ScribbleEdit: Synthetic Data for Image Editing with Scribbles and Text

ScribbleEdit：涂鸦+文本联合编辑大规模合成数据集 | UC Berkeley | arXiv:2605.01135

关键词： 图像编辑·涂鸦输入·合成数据·空间对齐·多模态控制

前序工作问题： 用户难以同时传达精确空间布局和语义细节；缺乏涂鸦-文本联合编辑的专用训练数据

贡献： 设计自动生成管线：通过修复生成源-目标图像对，配对人工涂鸦和VLM生成的文本指令，构建大规模合成数据集

效果： 微调后模型在空间对齐和语义一致性上显著提升，扩散和自回归两类模型均受益

批判点评： 合成涂鸦与真实用户涂鸦分布差异可能导致域迁移问题；VLM生成的文本指令质量依赖VLM能力上限

8. BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis

BlenderRAG：检索增强代码合成生成高保真3D对象 | University of Bologna | arXiv:2605.00632

关键词： 3D生成·RAG·Blender代码·LLM·检索增强

前序工作问题： LLM直接生成3D建模代码编译成功率低且几何一致性差，无需微调的3D生成方案匮乏

贡献： 构建500例专家验证的多模态数据集（50类别），RAG检索语义相似示例辅助LLM生成可执行Blender代码，无需微调或特殊硬件

效果： 编译成功率从40.8%提升至70%（+29.2%），CLIP语义对齐从0.41提升至0.77，跨4个LLM一致有效

批判点评： 500例数据集规模有限，复杂场景和组合对象的覆盖度不足；代码生成方式难以表达光滑曲面等连续几何

9. HumanSplatHMR: Closing the Loop Between Human Mesh Recovery and Gaussian Splatting Avatar

HumanSplatHMR：闭环联合优化人体Mesh恢复与高斯泼溅化身 | University of Michigan | arXiv:2605.02784

关键词： 人体重建·高斯泼溅·Mesh恢复·闭环优化·新视角合成

前序工作问题： 现有方法将姿态估计与外观重建解耦，姿态误差累积到渲染中无法修正

贡献： 通过可微渲染闭环，将光度/分割/深度损失反向传播到姿态参数和全局位置，实现姿态-外观联合优化

效果： 全局3D姿态恢复精度和新视角渲染质量均超越解耦基线，无需动捕设备即可从视频重建高质量化身

批判点评： 闭环优化增加训练时间；对遮挡严重或极端姿态的鲁棒性未充分验证

10. Pixel Perfect: Relational Image Quality Assessment with Spatially-Aware Distortions

Pixel Perfect：自监督关系型IQA，无需人工标注的空间感知质量评估 | Unknown | arXiv:2605.02863

关键词： 图像质量评估·自监督·关系型·空间感知·对比学习

前序工作问题： 传统IQA依赖MOS人工标注，成本高且无法提供可解释的局部反馈

贡献： 从绝对质量预测转向关系型方向性评估；自监督合成失真引擎生成训练数据；反对称目标训练失真预测网络输出空间感知解耦图；对比学习训练评分网络

效果： 完全无需人工标注，提供失真类型/强度/方向的空间感知映射，可针对性优化图像处理算法

批判点评： 合成失真与真实世界失真分布差距可能影响泛化；关系型评估难以与传统MOS指标直接对比

趋势观察

MoE+蒸馏成为统一多模态模型标配 — Mamoda2.5 用128专家Top-8路由实现25B参数仅激活3B，再通过蒸馏+RL将30步压缩为4步，95.9x加速；统一模型正在从'大而全'走向'大而高效'
推理加速从粗粒度跳步走向精细化自适应 — MotionCache 按像素运动强度分配去噪资源实现6.28x加速，SD3.5-T5 用线性注意力替代Softmax实现1.47x加速，加速策略日趋精细和理论化

人工智能炼丹君整理 | 2026-05-06