AIGC 周末专题|2026-05-02|稀疏注意力让视频生成快18倍

人工智能炼丹师
2026-05-02 / 0 评论 / 1 阅读 / 正在检测是否收录...

引言:为什么视频生成需要稀疏注意力?

视频扩散 Transformer(Video DiT)正在成为视频生成的主流架构。从 Wan 2.2、HunyuanVideo 到 CogVideoX,这些模型普遍采用 3D 全注意力(Full 3D Attention),让每个 token 都能与序列中所有其他 token 交互。这种设计虽然带来了出色的生成质量,但代价极为沉重——对于一段 5 秒 720P 的视频,注意力序列长度轻松达到数十万 token,O(N²) 的计算复杂度使得注意力运算占据了总推理时间的 80% 以上。

一个关键的观察是:视频 DiT 的注意力图天然是高度稀疏的。大量 token 之间的注意力权重可以忽略不计,真正重要的交互集中在时间相邻帧、空间局部区域和少量全局"锚点"之间。这一特性意味着,如果能精确识别并跳过无关计算,就能在几乎不损失质量的前提下获得数倍乃至十倍以上的加速。

过去一年(2025年5月—2026年4月),稀疏注意力在视频生成方向经历了爆发式发展:从最初的免训练启发式方法到精心设计的可训练替代方案,从纯稀疏到稀疏-线性融合,从双向扩散到自回归生成,技术路线日趋丰富。本专题系统梳理这一时期的 24 篇核心工作(深度解读 10 篇 + 速览 14 篇),涵盖 ICLR 2026 Oral、NeurIPS 2025、AAAI 2026、ICCV 2025、ICML 2025 等顶会成果,呈现该方向的完整技术演进脉络。


核心技术趋势

1. 从免训练到可训练,从推理到全程

稀疏注意力的演进路线清晰:免训练方法(CalibAtt / SVG-EAR / AdaSpa)天花板约 2x,轻量微调(SALAD / SLA)突破至 2-5x,全程可训练(VSA / BSA)则实现训练+推理双加速。三条路线并行发展,适用于不同部署场景。

2. 稀疏+线性融合成为最优范式

SLA(ICLR 2026 Oral)确立了"大权重用稀疏、小权重用线性"的分工模式。SLA2 通过可学习路由将其推向极致(18.6x),SALAD 用门控机制轻量化实现同一思路。这一范式的优势在于理论完备且工程可落地。

3. 注意力图的结构化利用

从统一稀疏策略到结构化利用:Sparse-vDiT 识别三种 Pattern(对角线/多对角线/竖条纹)、VMonarch 用 Monarch 矩阵表示时空结构、CalibAtt 发现跨输入稳定性。理解注意力图的内在结构是设计更好稀疏方案的关键。

4. 自回归视频扩散带来新挑战

Light Forcing 和 TempCache 分别面向 AR 视频扩散设计稀疏注意力和缓存压缩。随着 AR 范式(CogVideoX-AR / GameGen)兴起,因果注意力的稀疏化将成为新研究热点。

5. 多方法叠加走向实时部署

EasyCache + SVG 可叠加达 3x+;SLA + 步数蒸馏理论可达 5-10x 无损加速;稀疏注意力 + 量化(SLA2 QAT)+ 缓存三者联合,加之 SSTA 在 HunyuanVideo 1.5 中的工业级落地实践,正推动视频生成走向消费级设备实时部署。


方向分布与论文概览

本专题 24 篇论文按技术路线分为以下子方向:

  • 稀疏+线性融合 3 篇(SLA, SLA2, SALAD)
  • 免训练稀疏注意力 3 篇(SVG-EAR, CalibAtt, AdaSpa)
  • 结构化 / Pattern 稀疏 2 篇(Sparse-vDiT, VMonarch)
  • 可训练 / AR 稀疏 2 篇(VSA, Light Forcing)
  • 其余工作 14 篇(SVG / SVG2 / STA / BSA / NABLA / SSTA / TempCache / SODA / EasyCache / FasterCache / FastLightGen / FrameDiT / DiagDist / Survey)

含 ICLR 2026 Oral × 1, ICLR 2026 × 1, NeurIPS 2025 × 1, AAAI 2026 × 1, ICCV 2025 × 1, ICML 2025 × 1


技术路线与时间线

基础探索(2024.6–2025.2)

描述:Sparse Attention 从 LLM 领域迁移到视频 DiT,研究者开始发现视频扩散 Transformer 3D 全注意力中天然存在的稀疏性。

关键节点

  • 2024.6–2025.2:LLM 稀疏注意力技术(Top-K / 局部窗口 / FlashAttention)向视频扩散模型迁移

免训练加速(2025.2–2025.5)

描述:Sparse VideoGen 系列开创免训练框架,系统性利用 3D 全注意力天然稀疏性实现视频 DiT 推理加速。

关键节点

  • 2025.2:Sparse VideoGen(SVG):首个系统性免训练稀疏注意力加速框架
  • 2025.5:Sparse VideoGen2(SVG2):语义聚类驱动的稀疏模式发现

可训练突破(2025.5–2025.9)

描述:VSA 首次证明可训练稀疏注意力可在预训练阶段全程替代全注意力,实现训练+推理双加速。

关键节点

  • 2025.5:VSA(NeurIPS 2025):训练+推理全程稀疏注意力的里程碑

融合范式确立(2025.9–2026.1)

描述:SLA(ICLR 2026 Oral)确立"大权重稀疏+小权重线性"的融合范式,SALAD 和 VMonarch 从不同角度验证稀疏+线性混合设计。

关键节点

  • 2025.9:SLA(ICLR 2026 Oral):稀疏-线性注意力融合,13.7x 注意力加速
  • 2026.1:SALAD:门控线性注意力并行分支,2000 样本微调达 90% 稀疏度
  • 2026.1:VMonarch:Monarch 矩阵结构化注意力,17.5x FLOPs 减少

极致推进(2026.1–2026.4)

描述:SLA2 将加速比推向 18.6x,Light Forcing 首次面向自回归视频扩散设计稀疏方案,SVG-EAR 刷新免训练方法帕累托前沿,AdaSpa 以零开销搜索获得 ICCV 2025 接收。

关键节点

  • 2026.2:SLA2:可学习路由 + 量化感知训练,18.6x 注意力加速
  • 2026.2:Light Forcing:首个 AR 视频扩散稀疏注意力
  • 2026.3:SVG-EAR:误差感知路由 + 聚类质心补偿,1.93x 免训练加速
  • 2026.2:AdaSpa(ICCV 2025):LSE 缓存搜索,免训练免数据最优解

1. SLA:稀疏-线性注意力融合——自定义GPU Kernel实现13.7倍注意力加速(ICLR 2026 Oral)

论文: SLA
arXiv: 2509.24006
机构: 清华大学, UC Berkeley

1.1 研究动机

核心问题: 视频DiT中全注意力O(N²)复杂度导致推理延迟极高。

注意力权重可分为两部分:少量大权重(高秩)和大量小权重(低秩)。这天然暗示:对大权重用稀疏注意力(O(N²)但只算少量),对小权重用线性注意力(O(N))。现有方法要么纯稀疏(丢失低秩信息)要么纯线性(无法捕捉局部关键依赖),SLA首次将两者系统融合。

前序工作及局限:

  • 稀疏注意力(Top-K/局部窗口):丢失信息或不灵活
  • 线性注意力(Linear Transformer):表达能力不足

与前序工作的本质区别: SLA首次系统性融合稀疏+线性注意力,通过三级分类+自定义GPU kernel实现最优分配。

1.2 方法原理

方法框架图

SLA的核心设计:

(1) 三级分类:将注意力权重按大小分为Critical(精确计算)、Marginal(线性注意力近似)、Negligible(跳过)三个级别。

(2) 融合GPU Kernel:将稀疏注意力和线性注意力的前向/反向计算融合到单个自定义GPU kernel中,消除额外显存开销和kernel launch延迟。

(3) 轻量微调:仅需少量步即可在目标视频DiT模型上完成适配。

1.3 核心创新

  • 首次系统性融合稀疏注意力与线性注意力
  • 提出三级权重分类:Critical(O(N²)精确)+Marginal(O(N)线性)+Negligible(跳过)
  • 实现自定义GPU kernel支持前向+反向传播融合计算
  • 95%注意力计算减少,13.7倍注意力加速,2.2倍端到端加速
  • ICLR 2026 Oral——学术最高认可

1.4 实验结果

实验结果

  • 注意力计算减少95%(20倍)
  • 注意力加速13.7倍
  • 端到端加速2.2倍(Wan 2.1-1.3B)
  • 生成质量无损(VBench指标保持)
  • ICLR 2026 Oral接收

1.5 关键洞察

优势:ICLR 2026 Oral验证了方法的学术价值;自定义kernel可直接工业落地;2.2x E2E加速是质量无损方法的最优数字。局限:目前仅在1.3B模型上验证,14B+模型效果未知;kernel需针对不同硬件调优。

技术演进定位: 稀疏-线性融合范式的奠基工作(ICLR 2026 Oral)。

可能的后续方向:

  • 更大模型验证(14B+)
  • 与蒸馏/缓存叠加

2. SLA2:可学习路由+量化感知训练——97%稀疏度实现18.6倍注意力加速

论文: SLA2
arXiv: 2602.12675
机构: 清华大学, UC Berkeley

2.1 研究动机

核心问题: SLA采用固定的三级分类边界,无法适应不同层/头/时间步的动态变化。

SLA2提出:能否让模型自己学习最优的稀疏-线性分配比例?同时,SLA未利用量化技术进一步压缩计算,存在额外压缩空间。

前序工作及局限:

  • SLA:固定三级分类,ICLR 2026 Oral
  • 量化感知训练(QAT):LLM领域成熟技术

与前序工作的本质区别: SLA2引入可学习路由器实现层级自适应+QAT进一步压缩,将加速比从13.7x提升到18.6x。

2.2 方法原理

方法框架图

SLA2的核心改进:

(1) 可学习路由器:每层每头配备轻量路由网络,动态预测每个注意力块应使用稀疏、线性还是跳过策略。

(2) 改进注意力公式:重新设计稀疏+线性混合公式,更好地贴合原始SLA的分解动机,减少近似误差。

(3) 量化感知训练(QAT):联合训练路由器和量化参数,在INT4/INT8精度下保持质量。

2.3 核心创新

  • 突破SLA固定分类上限,引入可学习路由器动态调节稀疏/线性比例
  • 提出贴合原始分解动机的改进注意力公式
  • 量化感知训练(QAT)进一步压缩推理成本
  • 97%注意力稀疏度,18.6倍注意力加速
  • 质量保持与全注意力几乎无差距

2.4 实验结果

实验结果

  • 97%注意力稀疏度(仅3%计算量)
  • 18.6倍注意力加速
  • 视频生成质量与全注意力几乎无差距
  • 支持INT4量化进一步压缩

2.5 关键洞察

优势:在SLA基础上进一步将加速比提升35%,可学习路由实现层级自适应。局限:需要训练路由器(非免训练);QAT引入额外训练复杂性。

技术演进定位: SLA范式的极致推进。

可能的后续方向:

  • 与稀疏+蒸馏联合优化
  • 消费级设备部署

3. SVG-EAR:误差感知路由+无参数线性补偿——免训练1.93倍端到端加速

论文: SVG-EAR
arXiv: 2603.08982
机构: UC Berkeley

3.1 研究动机

核心问题: 免训练稀疏注意力丢弃被跳过块后信息损失且传统路由不精确。

现有稀疏注意力面临两难:直接丢弃被跳过块会丢失信息;用学习型预测器近似又引入训练开销和分布偏移。SVG-EAR提出关键洞察:经过语义聚类后,同一块内的key/value具有高度相似性,可用少量聚类质心准确概括。

前序工作及局限:

  • Sparse VideoGen/SVG2:在线稀疏模式识别
  • CalibAtt:离线校准静态模式

与前序工作的本质区别: SVG-EAR用聚类质心无参数恢复被跳过块+误差感知路由替代传统注意力分数路由。

3.2 方法原理

方法框架图

SVG-EAR的核心设计:

(1) 聚类质心补偿:对被跳过的注意力块,用key/value的聚类质心做线性(O(N))近似,恢复其对输出的贡献。

(2) 误差感知路由:不按注意力分数选择块,而是用轻量探测器估计每个块的补偿误差,选择'误差-成本比'最高的块做精确计算。

(3) 理论保证:提供注意力重建误差与聚类质量之间的理论上界。

3.3 核心创新

  • 颠覆传统'高注意力分数=重要'的假设,改为'高近似误差=需要精确计算'
  • 无参数线性补偿:用聚类质心O(N)恢复被跳过块的贡献
  • 误差感知路由:选择误差-成本比最高的块做精确计算
  • 提供注意力重建误差的理论上界

3.4 实验结果

实验结果

  • Wan 2.2:1.77x端到端加速,PSNR 29.759
  • HunyuanVideo:1.93x端到端加速,PSNR 31.043
  • 显著优于Sparse VideoGen2和CalibAtt
  • 完全免训练

3.5 关键洞察

优势:免训练、有理论保证、误差感知路由思路优雅。局限:聚类质心计算本身有开销;PSNR不是视频生成的最佳指标;加速上限受限于免训练范式。

技术演进定位: 免训练稀疏注意力的帕累托前沿。

可能的后续方向:

  • 与可训练方法结合
  • 聚类效率优化

4. VSA:端到端可训练稀疏注意力——从预训练阶段替换全注意力(NeurIPS 2025)

论文: VSA
arXiv: 2505.13389
机构: UC Berkeley, FastVideo

4.1 研究动机

核心问题: 稀疏注意力仅用于推理,训练仍需全注意力导致训练-推理不一致。

现有稀疏注意力主要用于推理加速,训练仍需全注意力。这导致训练-推理不一致和训练成本居高不下。VSA提出核心问题:能否设计一种从训练到推理全程使用的稀疏注意力,彻底替代全注意力?

前序工作及局限:

  • 所有推理时稀疏方法:训练仍用全注意力
  • FlashAttention:全注意力的高效实现

与前序工作的本质区别: VSA首次证明可训练稀疏注意力可从预训练阶段全程替代全注意力。

4.2 方法原理

方法框架图

VSA采用层次化两阶段设计:

(1) 粗粒度阶段:将token序列划分为3D cubes并池化为粗粒度表示,用低成本全注意力预测每个cube的重要性分数,选出关键token区域。

(2) 细粒度阶段:仅在预测的关键区域执行token级精确注意力,形成块稀疏计算模式。

(3) 硬件对齐:cube大小和块大小均对齐GPU的执行粒度,最大化并行效率。

4.3 核心创新

  • 首个在预训练阶段就替换全注意力的可训练稀疏注意力
  • 层次化设计:粗粒度cube池化预测关键token+细粒度块稀疏注意力
  • 硬件对齐:所有操作均对齐GPU warp/SM执行模式
  • 训练和推理双加速——不仅加速推理,还加速训练
  • 建立可训练稀疏注意力作为全注意力实用替代的里程碑

4.4 实验结果

实验结果

  • 训练和推理同时加速
  • 在视频生成质量上与全注意力基线持平
  • 显著降低训练GPU小时数
  • 建立可训练稀疏注意力作为全注意力的实用替代
  • NeurIPS 2025接收

4.5 关键洞察

优势:训练+推理双加速是独特卖点;硬件对齐设计实用性强;NeurIPS 2025验证了学术质量。局限:粗粒度预测可能丢失细粒度关键信息;需要从头预训练或大量微调。

技术演进定位: 训练范式变革的先驱(NeurIPS 2025)。

可能的后续方向:

  • 更大规模模型验证
  • 社区标准化

5. Sparse-vDiT:三模式稀疏Pattern识别+定制Kernel——视频DiT注意力图的系统性利用(AAAI 2026)

论文: Sparse-vDiT
arXiv: 2506.03065
机构: 多机构合作

5.1 研究动机

核心问题: 统一稀疏策略未充分利用视频DiT注意力图的结构特征。

此前的稀疏注意力方法大多采用统一的稀疏策略(如Top-K或块级稀疏),未充分利用视频DiT注意力图的结构特征。Sparse-vDiT通过详细分析注意力图,发现三种反复出现的稀疏模式,并为每种模式定制高效计算方案。

前序工作及局限:

  • 通用稀疏注意力:统一Top-K或块级策略
  • FlashAttention:稠密注意力优化

与前序工作的本质区别: Sparse-vDiT系统识别三种稀疏Pattern并为每种设计专用kernel。

5.2 方法原理

方法框架图

Sparse-vDiT的核心设计:

(1) 稀疏模式识别:通过统计分析发现视频DiT注意力图中三种主导模式——对角线(diagonal)反映时间邻近性、多对角线(multi-diagonal)反映空间局部性、竖条纹(vertical-stripe)反映全局anchor token。

(2) Pattern-Optimized Sparse Kernels:为每种模式设计专用的CUDA kernel,将稠密注意力替换为结构化稀疏计算。

(3) 自适应模式选择:根据每层每头的注意力分布自动选择最匹配的稀疏模式。

5.3 核心创新

  • 系统性识别视频DiT注意力图中的三种稀疏模式:对角线、多对角线、竖条纹
  • 为每种模式设计定制的高效计算kernel
  • 同时减少理论FLOPs和实际推理延迟
  • 即插即用框架,适配多种视频DiT模型
  • AAAI 2026接收

5.4 实验结果

实验结果

  • 理论FLOPs大幅减少
  • 实际推理速度显著提升
  • 视觉质量保持
  • 适配HunyuanVideo等主流模型
  • AAAI 2026接收

5.5 关键洞察

优势:对注意力图的结构化分析深入,三种模式的识别有启发性;定制kernel实现到位。局限:固定的三种模式可能无法覆盖所有场景;模式选择的开销需考虑。

技术演进定位: Pattern-aware稀疏注意力的开拓者(AAAI 2026)。

可能的后续方向:

  • 更多Pattern发现
  • 自动Pattern选择

6. SALAD:门控线性注意力并行分支——仅2000样本微调实现90%稀疏度

论文: SALAD
arXiv: 2601.16515
机构: 清华大学, 腾讯

6.1 研究动机

核心问题: 免训练稀疏度受限于50-70%,而训练型方法计算成本高。

免训练稀疏注意力受限于有限的稀疏度(通常50-70%),突破稀疏度上限需要训练。但训练型方法通常需要大量数据和计算。SALAD提出:能否用极轻量的微调达到极高稀疏度?

前序工作及局限:

  • 免训练稀疏方法:稀疏度上限有限
  • SLA:需要较多微调步数

与前序工作的本质区别: SALAD用极轻量微调(2000样本)在稀疏注意力旁添加线性分支达到90%稀疏度。

6.2 方法原理

方法框架图

SALAD的核心设计:

(1) 双分支并行:在原始稀疏注意力旁边添加一个轻量线性注意力分支,线性分支负责捕捉被稀疏注意力丢弃的低秩信息。

(2) 输入依赖门控:用可学习门控机制根据输入内容动态调节两个分支的贡献权重。

(3) 极轻量微调:仅新增线性注意力层和门控网络的参数,用2000个视频样本1600步即可完成训练。

6.3 核心创新

  • 在稀疏注意力旁添加轻量线性注意力并行分支
  • 输入依赖门控机制动态平衡两分支贡献
  • 极轻量微调:仅需2000个视频样本和1600步训练
  • 90%稀疏度下质量与全注意力基线相当
  • 1.72x推理加速

6.4 实验结果

实验结果

  • 90%稀疏度,1.72x推理加速
  • 生成质量与全注意力基线相当
  • 仅需2000样本微调
  • 适配多种视频DiT模型

6.5 关键洞察

优势:微调效率极高(2000样本),工程门槛低;门控机制优雅。局限:1.72x加速低于SLA的2.2x;线性注意力的表达能力有限。

技术演进定位: 工程门槛最低的稀疏-线性融合方案。

可能的后续方向:

  • 门控机制改进
  • 与VSA思路融合

7. VMonarch:Monarch矩阵结构化注意力——17.5倍FLOPs减少的数学最优解

论文: VMonarch
arXiv: 2601.22275
机构: 南京大学, 腾讯

7.1 研究动机

核心问题: 现有稀疏方法缺乏数学最优性保证。

视频DiT的注意力模式天然具有高度稀疏的时空结构,但现有稀疏方法(Top-K/局部窗口)要么不灵活要么丢失全局信息。VMonarch发现Monarch矩阵——一类具有灵活稀疏性的结构化矩阵——可以优雅地表示这些模式。

前序工作及局限:

  • Monarch Mixer(2023):结构化矩阵在Mixer中的应用
  • Monarch in LLM:LLM注意力压缩

与前序工作的本质区别: VMonarch首次将Monarch矩阵引入视频DiT,提供时空注意力的数学最优分解。

7.2 方法原理

方法框架图

VMonarch的核心设计:

(1) 时空Monarch分解:将全注意力矩阵分解为帧内(空间)和帧间(时间)两组Monarch因子,分别捕捉空间和时间相关性。

(2) 交替最小化:通过交替优化两组因子来逼近原始全注意力,配合重计算策略解决收敛不稳定问题。

(3) 在线熵算法:融入FlashAttention的在线计算范式,使Monarch矩阵更新在长序列上高效可行。

7.3 核心创新

  • 首次将Monarch矩阵引入视频DiT注意力
  • 时空Monarch分解:帧内(空间)+帧间(时间)两组结构化因子
  • 交替最小化+重计算策略解决不稳定问题
  • 在线熵算法融入FlashAttention支持长序列
  • 17.5倍FLOPs减少,5倍以上注意力加速

7.4 实验结果

实验结果

  • 注意力FLOPs减少17.5倍
  • 注意力计算加速5倍以上
  • 90%稀疏度下超越所有SOTA稀疏注意力方法
  • 轻量微调后VBench质量与全注意力相当

7.5 关键洞察

优势:数学上最优雅的方案;FlashAttention兼容;理论深度最强。局限:交替最小化收敛依赖初始化;实际wall-clock加速(5x)远小于理论FLOPs减少(17.5x),存在实现瓶颈。

技术演进定位: 理论深度最强的结构化注意力方案。

可能的后续方向:

  • 工程优化缩小理论-实际差距
  • 与FlashAttention深度融合

8. Light Forcing:首个面向自回归视频扩散的稀疏注意力——Chunk-Aware Growth机制

论文: Light Forcing
arXiv: 2602.04789
机构: 多机构合作

8.1 研究动机

核心问题: 现有稀疏注意力面向双向扩散模型,忽视自回归视频生成的因果特性。

现有稀疏注意力主要面向双向扩散模型(如Wan/HunyuanVideo),而自回归视频扩散模型(如GameGen/Oasis/CogVideoX-AR)的因果结构与双向模型截然不同。Light Forcing首次为AR视频扩散定制稀疏注意力方案。

前序工作及局限:

  • 双向扩散稀疏方法:SVG/CalibAtt/SLA等
  • AR视频扩散模型:CogVideoX-AR/GameGen

与前序工作的本质区别: Light Forcing首次为AR视频扩散定制Chunk-Aware Growth稀疏注意力。

8.2 方法原理

方法框架图

Light Forcing的核心设计:

(1) AR注意力模式分析:发现AR视频扩散中注意力呈现因果增长的独特模式——新生成帧主要关注临近帧和关键锚帧。

(2) Chunk-Aware Growth机制:将视频序列划分为因果chunk,稀疏注意力范围随chunk增长动态扩展,保持对历史的选择性回顾。

(3) 锚帧保留策略:自动识别并保留关键参考帧的全注意力计算,确保长程一致性。

8.3 核心创新

  • 首个专门面向自回归(AR)视频生成模型的稀疏注意力
  • 提出Chunk-Aware Growth机制适应AR生成的因果增长特性
  • 发现AR视频扩散中独特的注意力稀疏模式
  • 兼顾质量提升和效率加速
  • 开源代码和模型

8.4 实验结果

实验结果

  • AR视频生成质量提升(质量和效率双赢)
  • 推理速度显著加速
  • 长视频生成的一致性提升
  • 代码开源

8.5 关键洞察

优势:AR视频生成方向的首个稀疏注意力方案,填补空白;Chunk-Aware Growth设计与AR范式天然匹配。局限:AR视频生成模型本身尚未成为主流;方法可推广性受限于AR架构。

技术演进定位: AR视频生成稀疏加速的开创者。

可能的后续方向:

  • AR范式普及后的标准化
  • 与KV缓存压缩联合

9. CalibAtt:离线校准+在线高效推理——跨输入稳定的块级稀疏模式

论文: CalibAtt
arXiv: 2603.05503
机构: 以色列理工

9.1 研究动机

核心问题: 免训练方法需要在线动态判断token重要性,开销大。

已有稀疏注意力方法要么需要训练,要么在线动态判断token重要性(开销大)。CalibAtt发现核心洞察:稀疏模式在不同输入上惊人地稳定,可以离线一次校准、在线直接复用。

前序工作及局限:

  • Sparse VideoGen:在线3%样本分析
  • 动态稀疏方法:运行时判断开销

与前序工作的本质区别: CalibAtt发现稀疏模式跨输入稳定,可离线固定复用。

9.2 方法原理

方法框架图

CalibAtt采用两阶段策略:

(1) 离线校准阶段:在少量参考视频上运行全注意力,统计每一层、每个头、每个扩散时间步的块级稀疏模式和重复模式。

(2) 模式编译:将稳定的稀疏模式编译为优化的注意力操作(类似JIT编译)。

(3) 在线推理:只计算被选中的输入相关连接,以硬件友好方式跳过未选中连接。

9.3 核心创新

  • 发现关键洞察:大量token-to-token连接在不同输入上一致地产生可忽略的注意力分数
  • 离线校准+在线推理两阶段策略
  • 层-头-时间步三维稀疏模式校准
  • 块级粒度兼顾精度和硬件效率
  • 完全免训练,1.58x端到端加速

9.4 实验结果

实验结果

  • Wan 2.1 14B、Mochi 1及其蒸馏版本上实现1.58x端到端加速
  • 视频生成质量和文本-视频对齐度优于已有免训练方法
  • 支持多种分辨率
  • 完全免训练

9.5 关键洞察

优势:完全免训练、直接即插即用;离线校准成本低;硬件友好。局限:1.58x加速比在近期方法中不突出;对新架构需重新校准;块级粒度可能丢失细粒度信息。

技术演进定位: 离线校准范式的开创者。

可能的后续方向:

  • 模式自动更新
  • 新架构快速适配

10. AdaSpa:动态模式+在线精确搜索——面向长视频的自适应稀疏注意力(ICCV 2025)

论文: AdaSpa
arXiv: 2502.21079
机构: 字节跳动, 北京大学

10.1 研究动机

核心问题: 动态模式和在线搜索难以兼顾,现有方法牺牲其一。

现有免训练稀疏方法要么用固定模式(无法适应动态变化),要么在线搜索开销大。AdaSpa提出:能否将动态模式与在线精确搜索结合,实现既准确又高效的自适应稀疏注意力?

前序工作及局限:

  • 固定模式方法:CalibAtt等,无法动态适应
  • 在线搜索方法:开销大

与前序工作的本质区别: AdaSpa利用FlashAttention的LSE副产品零开销实现在线精确搜索。

10.2 方法原理

方法框架图

AdaSpa的核心设计:

(1) 块化模式(Blockified Pattern):将注意力矩阵划分为层次化block结构,高效表示DiT中的多尺度稀疏性。

(2) LSE缓存搜索:利用FlashAttention计算过程中的LogSumExp副产品作为block重要性信号,零额外开销精确定位关键token区域。

(3) 自适应稀疏决策:根据每步动态计算的重要性信号决定哪些block需要精确计算,实现自适应稀疏。

10.3 核心创新

  • 首个结合动态模式和在线精确搜索的稀疏注意力方法
  • 块化模式(Blockified Pattern)高效表示DiT的层次稀疏性
  • LSE(LogSumExp)缓存搜索实现精确重要token定位
  • 免训练、免数据、即插即用
  • 面向长视频生成加速
  • ICCV 2025接收

10.4 实验结果

实验结果

  • 长视频生成速度显著提升
  • 视觉质量与原始模型几乎相同
  • 免训练、免数据
  • ICCV 2025接收
  • 适配OpenSora等模型

10.5 关键洞察

优势:LSE缓存搜索零开销,设计极其优雅;免训练免数据实用性最强。局限:依赖FlashAttention实现,对其他注意力实现不通用。

技术演进定位: 免训练免数据方案的最优解(ICCV 2025)。

可能的后续方向:

  • 推广到更多注意力实现
  • 与缓存方法叠加


其余论文速览

免训练框架 & 稀疏注意力基础

1. Sparse VideoGen:首个系统性利用3D全注意力天然稀疏性的免训练加速框架

Sparse VideoGen: Accelerating Video Diffusion Transformers with Inherent Sparsity | arXiv:2502.01776 | UC Berkeley

关键词: 免训练, 空间/时间稀疏, 3D全注意力, 系列开山作

前序工作问题: 视频DiT的3D全注意力被视为黑盒,其内在稀疏性未被系统性利用。

贡献: 首个系统性利用3D全注意力天然稀疏性的免训练加速框架,在线3%样本分析识别空间/时间稀疏模式。

效果: 在Wan/HunyuanVideo/Mochi上实现高效免训练加速,开创Sparse VideoGen系列。

批判点评: 方向开创性强,但在线分析存在开销;后续SVG2和SVG-EAR在其基础上大幅改进。


2. Sparse VideoGen2:语义聚类驱动的稀疏注意力加速

Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Clustering | arXiv:2505.18875 | UC Berkeley

关键词: 语义聚类, K-Means, 空间/时间稀疏, SVG系列第二代

前序工作问题: SVG的在线稀疏模式分析精度有限,缺乏语义层面的理解。

贡献: 基于K-Means语义聚类的稀疏注意力加速,自动发现空间和时间两种稀疏模式并分别优化。

效果: 在SVG基础上进一步提升加速比,聚类质量直接影响加速效果。

批判点评: 语义聚类方向正确,但K-Means本身有计算开销;已被SVG-EAR的误差感知路由超越。


缓存与混合加速

3. TempCache:面向自回归视频扩散的时间缓存压缩+稀疏注意力联合加速

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention | arXiv:2602.01801 | 多机构合作

关键词: KV缓存压缩, 自回归, 世界模型, AnnCA

前序工作问题: 自回归视频扩散模型的KV缓存随序列增长线性膨胀,导致长视频生成效率低下。

贡献: 面向自回归视频扩散的时间KV缓存压缩+稀疏注意力联合加速,AnnCA近似近邻注意力。

效果: 长视频流式生成效率大幅提升,支持视频世界模型。

批判点评: KV缓存压缩与稀疏注意力正交互补,联合使用前景广阔;AnnCA的近似精度需关注。


4. SODA:敏感度导向的缓存+剪枝统一框架

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer | arXiv:2603.07057 | 多机构合作

关键词: 敏感度建模, 动态规划, 缓存+剪枝, 统一框架

前序工作问题: 缓存和剪枝分别独立设计,缺乏统一最优策略。

贡献: 敏感度导向的缓存+剪枝统一框架,通过动态规划求解最优缓存时间点。

效果: 在DiT-XL/PixArt-α/OpenSora上实现SOTA保真度-加速比权衡。

批判点评: 统一框架设计优雅,动态规划给出理论最优解;但离线分析和迁移成本需考虑。


5. EasyCache:免训练自适应缓存加速,与SVG稀疏注意力可叠加

Less is Enough: Training-Free Video Diffusion Acceleration via Adaptive Caching | arXiv:2507.03065 | 多机构合作

关键词: 免训练, 自适应缓存, 可叠加, 3x加速

前序工作问题: 缓存方法和稀疏注意力通常独立设计,能否叠加加速?

贡献: 无需训练的自适应缓存加速,运行时自适应决策何时复用何时重算,与SVG稀疏注意力可叠加。

效果: SVG+EasyCache在HunyuanVideo上实现3x以上加速。

批判点评: 叠加性是关键价值——稀疏注意力+缓存的联合使用开辟了组合加速新思路。


6. FasterCache:免训练视频扩散缓存加速(ICLR 2026)

FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality | ICLR 2026 | 多机构合作

关键词: 免训练缓存, 时间步复用, ICLR 2026, 全自注意力

前序工作问题: 视频扩散不同时间步之间的特征相似性未被充分利用。

贡献: 免训练视频扩散缓存加速,利用全自注意力层的时间步相关性进行特征复用。

效果: 在CogVideoX/Vchitect 2.0/Mochi上实现高质量免训练加速。

批判点评: ICLR 2026接收验证了方法的严谨性;缓存+稀疏注意力的协同将是未来主流。


滑动窗口与训练加速

7. STA:Tile级滑动窗口注意力——硬件友好设计实现2.8-17x注意力加速(ICML 2025)

Fast Video Generation with Sliding Tile Attention | arXiv:2502.04507 | UC Berkeley (Hao AI Lab)

关键词: 滑动窗口, Tile级, 硬件友好, ICML 2025, 免训练

前序工作问题: Token级滑动窗口注意力(SWA)在GPU上硬件利用率低,无法充分利用视频DiT注意力的3D局部性。

贡献: 提出Tile级滑动窗口注意力替代Token级,利用视频DiT注意力在3D时空局部窗口内集中的特性,硬件友好设计。

效果: 注意力加速2.8-17x(vs FlashAttention-2),端到端1.36-3.53x加速,HunyuanVideo延迟从945s降至268s,ICML 2025接收。

批判点评: 与稀疏注意力正交互补——STA处理局部窗口、稀疏方法处理全局选择,二者可叠加;ICML 2025验证了学术质量。


8. BSA:双向稀疏注意力——首个同时稀疏化Query和KV的训练加速方法

Bidirectional Sparse Attention for Faster Video Diffusion Training | arXiv:2509.01085 | UC Berkeley (Hao AI Lab)

关键词: 训练加速, 双向稀疏, Query+KV稀疏, 动态阈值, 20x FLOPs

前序工作问题: 现有稀疏注意力仅稀疏化KV端,Query端仍完整计算;且使用固定稀疏模式无法适应DiT的动态注意力特性。

贡献: 首个同时动态稀疏化Query和KV对的训练加速方法,通过语义相似性选择Query+动态阈值保留关键KV块。

效果: 训练FLOPs减少20x,注意力训练加速17.79x,生成质量与全注意力持平或超越。

批判点评: 与VSA同属训练加速方向但策略不同——VSA替换注意力机制,BSA在全注意力内部做双向稀疏;二者思路互补。


9. NABLA:自适应块级注意力——CDF二值化+Flex Attention免自定义CUDA

∇NABLA: Neighborhood Adaptive Block-Level Attention | arXiv:2507.13546 | AI Forever

关键词: 块级注意力, CDF二值化, Flex Attention, 训练+推理, 开源权重

前序工作问题: 自定义CUDA kernel开发门槛高,限制了稀疏注意力方法的社区采用。

贡献: 自适应块级注意力:下采样Q/K后在压缩空间计算注意力,CDF二值化生成稀疏mask,集成PyTorch Flex Attention无需自定义CUDA。

效果: 训练和推理加速最高2.7x,可与STA叠加使用,Wan 2.1预微调权重已开源。

批判点评: 工程门槛最低——无需写CUDA即可使用稀疏注意力;与STA叠加使用的设计体现了模块化组合的趋势。


工业级落地

10. SSTA (HunyuanVideo 1.5):选择性+滑动Tile注意力——工业级视频生成模型的稀疏注意力实践

HunyuanVideo 1.5 Technical Report — Selective and Sliding Tile Attention | arXiv:2511.18870 | 腾讯混元

关键词: SSTA, 选择性注意力, 滑动Tile, 工业级, 消费级GPU, 开源

前序工作问题: 学术界的稀疏注意力方案多在研究模型上验证,缺乏工业级视频生成模型中的端到端集成和大规模验证。

贡献: 提出SSTA(Selective and Sliding Tile Attention):识别并剪除冗余时空KV块,仅对高信息区域执行全注意力,集成于8.3B参数的工业级视频生成模型。

效果: 10秒720p视频端到端1.87x加速(vs FlashAttention-3),消费级GPU可运行,开源模型权重。

批判点评: 稀疏注意力从学术论文走向工业产品的标志性案例——SSTA融合了STA的滑动窗口和选择性剪枝,验证了稀疏注意力在大规模模型中的实用性。


蒸馏与替代注意力

11. FastLightGen:步数+参数同时压缩的三阶段协同蒸馏

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters | arXiv:2603.01685 | 香港科技大学(广州)

关键词: 步数蒸馏, 参数剪枝, 联合压缩, 35x加速

前序工作问题: 步数蒸馏和参数剪枝独立应用效果有限,联合优化缺乏系统方案。

贡献: 步数+参数同时压缩的三阶段协同蒸馏管线,将13B模型压缩至30%参数4步推理。

效果: 35x加速HunyuanVideo/WanX,5秒视频数秒内生成。

批判点评: 蒸馏+稀疏注意力理论上可达5-10x无损加速,FastLightGen展示了单路线的极限。


12. FrameDiT:帧级矩阵注意力替代token级全注意力

FrameDiT: Frame-level Matrix Attention for Video Diffusion Transformers | arXiv:2603.10200 | 多机构合作

关键词: 帧级注意力, 矩阵注意力, 结构化, 需训练

前序工作问题: Full 3D注意力过于精细(token级),而Local Factorized Attention过于粗略(帧内/帧间分离),缺乏中间粒度设计。

贡献: 帧级矩阵注意力替代token级全注意力,粒度介于Full 3D和Local Factorized之间。

效果: 效率与Local Factorized Attention相当,多个视频生成benchmark达到SOTA。

批判点评: 帧级粒度提供了token级和因子化之间的有趣折中,但需要训练限制了即插即用性。


13. Diagonal Distillation:将双向扩散模型蒸馏为自回归生成器实现277x加速

From Slow Bidirectional to Fast Autoregressive Video Diffusion Models via Diagonal Distillation | arXiv:2603.10200 | Nvidia, Technion

关键词: 对角蒸馏, 277x加速, 自回归, 实时生成

前序工作问题: 双向扩散模型质量高但推理慢,能否将其知识蒸馏到更快的自回归架构?

贡献: 将双向扩散模型蒸馏为自回归生成器,对角蒸馏+隐式光流实现277x加速。

效果: 31 FPS实时生成,极端加速但存在质量损失。

批判点评: 277x加速数字惊人,代表了效率极端追求的方向;但质量损失限制了实际应用。


社区资源

14. Awesome-Video-Attention:视频注意力加速方法系统性综述

Awesome-Video-Attention: A Curated Survey of Efficient Video Attention Methods | GitHub (hao-ai-lab) | UC Berkeley (Hao AI Lab)

关键词: 综述, 社区资源, 全技术栈, 持续更新

前序工作问题: 视频注意力加速方法论文爆发式增长,缺乏系统梳理。

贡献: 视频注意力加速方法的系统性综述列表,涵盖稀疏化/量化/缓存等全部技术路线。

效果: 社区标准参考,持续更新,按时间逆序排列。

批判点评: 入门和跟踪该方向的最佳起点;由SVG/VSA团队维护,权威性高。



横向对比:稀疏注意力在视频生成中的技术路线对比

方法 方法类别 是否需要训练 注意力加速 端到端加速 测试模型 质量保持
SLA 稀疏+线性融合 轻量微调 13.7x 2.2x Wan 2.1 1.3B ★★★★★
SLA2 稀疏+线性+量化 可学习路由 18.6x - 视频DiT ★★★★★
SVG-EAR 稀疏+线性补偿 免训练 - 1.93x Wan 2.2 / HunyuanVideo ★★★★
VSA 可训练稀疏 预训练替换 训练+推理 - 视频DiT ★★★★★
Sparse-vDiT Pattern定制kernel 免训练 显著 显著 HunyuanVideo ★★★★
SALAD 稀疏+线性门控 2000样本微调 - 1.72x 视频DiT ★★★★
VMonarch 结构化Monarch 轻量微调 5x - VBench ★★★★
Light Forcing AR稀疏 免训练 显著 - AR视频DiT ★★★★
CalibAtt 离线校准稀疏 免训练 - 1.58x Wan 2.1 14B / Mochi ★★★★
AdaSpa 自适应稀疏 免训练免数据 显著 显著 OpenSora ★★★★★

总结与展望

回顾本专题的 24 篇工作,稀疏注意力在视频生成中已形成三条清晰的技术路线:

  • 免训练路线(CalibAtt / SVG-EAR / AdaSpa / STA):零成本即插即用,天花板约 2x,适合快速验证和社区扩散
  • 轻量微调路线(SLA / SLA2 / SALAD / NABLA):2000 样本即可达 5-18x 注意力加速,工程门槛适中
  • 全程可训练路线(VSA / BSA):从预训练阶段替换全注意力,训练+推理双加速,但需要从头训练

三条路线并非互相替代,而是适用于不同的部署场景和资源约束。更值得关注的是,多方法叠加(稀疏注意力 + 缓存 + 蒸馏 + 量化)正在成为主流趋势——EasyCache + SVG 已达 3x+,SLA2 QAT 展示了稀疏 + 量化的协同效果,SSTA 在 HunyuanVideo 1.5 中的工业落地则证明这些技术已具备产品化能力。

开放问题:随着视频 DiT 模型规模持续增长(从 1.3B 到 14B+)、视频分辨率和时长不断提升,稀疏注意力的加速收益是否会继续线性扩展?自回归视频生成范式的兴起又将对稀疏注意力设计带来哪些新约束?这些问题将是下一阶段的核心研究方向。


今日讨论

在视频DiT稀疏注意力的技术路线选择上,你更看好哪条路线?

(A) 免训练方法(CalibAtt/SVG-EAR/AdaSpa)——零成本即插即用但天花板约2x

(B) 轻量微调融合(SLA/SALAD)——2000样本即可达5x+但需适配

(C) 全程可训练替换(VSA)——从训练到推理全程稀疏但需从头训练

此外,稀疏注意力+缓存+蒸馏的三者叠加是否能在消费级GPU上实现实时视频生成?


人工智能炼丹君 整理 | 数据来源:arXiv 2025年5月 — 2026年4月
含 ICLR 2026 Oral × 1, ICLR 2026 × 1, NeurIPS 2025 × 1, AAAI 2026 × 1, ICCV 2025 × 1, ICML 2025 × 1

0

评论 (0)

取消
粤ICP备2021042327号