AIGC 每日速读|2026-05-11|Cola DLM层次潜扩散挑战AR范式

人工智能炼丹君

2026-05-11 / 0 评论 / 0 阅读 / 正在检测是否收录...

05/11

今日核心看点

首个DiT基准 Continuous

今日概览

今日 arXiv cs.CV 视觉生成相关论文共 10 篇，重点解读 1 篇。

方向分布：

扩散语言模型与非自回归生成 1 篇 1 篇 (Cola DLM)
视频生成与编辑 2 篇 2 篇 (Relit-LiVE, Sparkle)
推理加速与长上下文 3 篇 3 篇 (CDM, MISA, MDN)
扩散强化学习与奖励模型 2 篇 2 篇 (MARBLE, DeScore)
测试时扩展与智能体 1 篇 1 篇 (AutoTTS)
Agentic RL 1 篇 1 篇 (StraTA)

数据来源: arXiv (2026-05-11 归档)

重点论文深度解读

1. Continuous Latent Diffusion Language Model

字节跳动提出层次潜扩散语言模型，挑战自回归范式 | ETH | arXiv:2605.06548

关键词： 扩散模型·语言模型·潜空间·自回归·非自回归

研究动机

核心问题： 大语言模型绑定于固定左到右自回归序列，难以同时实现生成效率、可扩展表征学习和全局语义建模

大语言模型在自回归范式下取得显著成功，但高质量文本生成不必绑定于固定的从左到右顺序。现有替代方案仍难以同时实现生成效率、可扩展表征学习和有效全局语义建模。字节跳动提出 Cola DLM，通过层次化信息分解框架重新定义文本生成范式。

前序工作及局限：

MLM/NAT/Chunk AR：masked language model、non-autoregressive decoding、chunk autoregressive 等替代方案仍难以在效率和质量间取得平衡
LLaDA 等扩散语言模型：在主流 LLM 基准上仍无法超越同规模 AR 模型，生成质量与似然评估存在差距

与前序工作的本质区别： Cola DLM 从马尔可夫路径统一视角出发，将扩散过程定义为潜先验传输而非 token 级观测恢复，首次提出层次化连续潜先验建模，天然支持语义压缩和跨模态扩展

方法原理

方法框架图

Cola DLM 采用层次潜扩散语言模型架构：首先通过 Text VAE 学习稳定的文本到潜变量映射，然后使用块因果 DiT 在连续潜空间建模全局语义先验，最后通过条件解码输出文本。从统一的马尔可夫路径视角，扩散过程被定义为潜先验传输而非 token 级观测恢复，从而将全局语义组织与局部文本实现分离。

核心创新

首次提出层次化连续潜先验建模作为严格 token 级语言建模的原则性替代方案；从马尔可夫路径统一视角将扩散过程定义为潜先验传输；支持语义压缩和先验拟合在连续空间中完成，自然扩展到其他连续模态。

实验结果

在 4 个研究问题、8 个基准测试、严格匹配的 ~2B 参数自回归和 LLaDA 基线上的实验表明，Cola DLM 在约 2000 EFLOPs 的扩展曲线中展现出强扩展行为，生成质量与扩展行为可能比似然更好地反映模型能力，同时为离散文本与连续模态的统一建模提供了具体路径。

批判性点评

新颖性： 层次化连续潜先验建模是原创性贡献，从马尔可夫路径统一视角重新定义扩散语言模型的核心机制，具有较高创新性
可复现性： 论文提供实验细节和代码（疑似开源），8 个基准上的严格基线对比增强了可复现性，但需注意 ~2B 参数规模对资源的要求
影响力： 为扩散语言模型和统一多模态建模提供了新的技术路径，对 LLM 训练范式的潜在影响值得关注，但生成质量和扩展行为的具体优势仍需进一步验证

深度点评：

~2B 参数强扩展性 — 首次将扩散语言模型扩展至约 2000 EFLOPs 并展现强扩展行为，生成质量与扩展行为可能比似然更好地反映模型能力
马尔可夫路径统一视角 — 将扩散过程定义为潜先验传输而非 token 级观测恢复，为理解扩散语言模型提供了新的理论框架
核心对比仍有差距 — 在 8 个基准上表现对标 AR 和 LLaDA 基线，但主流 LLM 基准上仍未全面超越同规模自回归模型，实用性和理论优势之间存在差距

技术演进定位： 扩散语言模型路线的重大突破，首次将层次化连续潜先验建模应用于 ~2B 参数规模，与 LLaDA 等前序工作相比在扩展性和多模态统一性上有本质区别

可能的后续方向：

更小步数的超快速生成
与视觉扩散模型统一架构
在主流 LLM 基准上全面超越 AR 基线