标签搜索

Jefxiong

累计撰写 62 篇文章
累计收到 8 条评论

首页
/
AIGC
/
正文

AIGC

AIGC 周末专题|2026-05-02|稀疏注意力让视频生成快18倍

人工智能炼丹师

2026-05-02 / 0 评论 / 1 阅读 / 正在检测是否收录...

05/02

引言：为什么视频生成需要稀疏注意力？

视频扩散 Transformer（Video DiT）正在成为视频生成的主流架构。从 Wan 2.2、HunyuanVideo 到 CogVideoX，这些模型普遍采用 3D 全注意力（Full 3D Attention），让每个 token 都能与序列中所有其他 token 交互。这种设计虽然带来了出色的生成质量，但代价极为沉重——对于一段 5 秒 720P 的视频，注意力序列长度轻松达到数十万 token，O(N²) 的计算复杂度使得注意力运算占据了总推理时间的 80% 以上。

一个关键的观察是：视频 DiT 的注意力图天然是高度稀疏的。大量 token 之间的注意力权重可以忽略不计，真正重要的交互集中在时间相邻帧、空间局部区域和少量全局"锚点"之间。这一特性意味着，如果能精确识别并跳过无关计算，就能在几乎不损失质量的前提下获得数倍乃至十倍以上的加速。

过去一年（2025年5月—2026年4月），稀疏注意力在视频生成方向经历了爆发式发展：从最初的免训练启发式方法到精心设计的可训练替代方案，从纯稀疏到稀疏-线性融合，从双向扩散到自回归生成，技术路线日趋丰富。本专题系统梳理这一时期的 24 篇核心工作（深度解读 10 篇 + 速览 14 篇），涵盖 ICLR 2026 Oral、NeurIPS 2025、AAAI 2026、ICCV 2025、ICML 2025 等顶会成果，呈现该方向的完整技术演进脉络。

核心技术趋势

1. 从免训练到可训练，从推理到全程

稀疏注意力的演进路线清晰：免训练方法（CalibAtt / SVG-EAR / AdaSpa）天花板约 2x，轻量微调（SALAD / SLA）突破至 2-5x，全程可训练（VSA / BSA）则实现训练+推理双加速。三条路线并行发展，适用于不同部署场景。

2. 稀疏+线性融合成为最优范式

SLA（ICLR 2026 Oral）确立了"大权重用稀疏、小权重用线性"的分工模式。SLA2 通过可学习路由将其推向极致（18.6x），SALAD 用门控机制轻量化实现同一思路。这一范式的优势在于理论完备且工程可落地。

3. 注意力图的结构化利用

从统一稀疏策略到结构化利用：Sparse-vDiT 识别三种 Pattern（对角线/多对角线/竖条纹）、VMonarch 用 Monarch 矩阵表示时空结构、CalibAtt 发现跨输入稳定性。理解注意力图的内在结构是设计更好稀疏方案的关键。

4. 自回归视频扩散带来新挑战

Light Forcing 和 TempCache 分别面向 AR 视频扩散设计稀疏注意力和缓存压缩。随着 AR 范式（CogVideoX-AR / GameGen）兴起，因果注意力的稀疏化将成为新研究热点。

5. 多方法叠加走向实时部署

EasyCache + SVG 可叠加达 3x+；SLA + 步数蒸馏理论可达 5-10x 无损加速；稀疏注意力 + 量化（SLA2 QAT）+ 缓存三者联合，加之 SSTA 在 HunyuanVideo 1.5 中的工业级落地实践，正推动视频生成走向消费级设备实时部署。

方向分布与论文概览

本专题 24 篇论文按技术路线分为以下子方向：

稀疏+线性融合 3 篇（SLA, SLA2, SALAD）
免训练稀疏注意力 3 篇（SVG-EAR, CalibAtt, AdaSpa）
结构化 / Pattern 稀疏 2 篇（Sparse-vDiT, VMonarch）
可训练 / AR 稀疏 2 篇（VSA, Light Forcing）
其余工作 14 篇（SVG / SVG2 / STA / BSA / NABLA / SSTA / TempCache / SODA / EasyCache / FasterCache / FastLightGen / FrameDiT / DiagDist / Survey）

含 ICLR 2026 Oral × 1, ICLR 2026 × 1, NeurIPS 2025 × 1, AAAI 2026 × 1, ICCV 2025 × 1, ICML 2025 × 1

技术路线与时间线

基础探索（2024.6–2025.2）

描述：Sparse Attention 从 LLM 领域迁移到视频 DiT，研究者开始发现视频扩散 Transformer 3D 全注意力中天然存在的稀疏性。

关键节点：

2024.6–2025.2：LLM 稀疏注意力技术（Top-K / 局部窗口 / FlashAttention）向视频扩散模型迁移

免训练加速（2025.2–2025.5）

描述：Sparse VideoGen 系列开创免训练框架，系统性利用 3D 全注意力天然稀疏性实现视频 DiT 推理加速。

关键节点：

2025.2：Sparse VideoGen(SVG)：首个系统性免训练稀疏注意力加速框架
2025.5：Sparse VideoGen2(SVG2)：语义聚类驱动的稀疏模式发现

可训练突破（2025.5–2025.9）

描述：VSA 首次证明可训练稀疏注意力可在预训练阶段全程替代全注意力，实现训练+推理双加速。

关键节点：

2025.5：VSA（NeurIPS 2025）：训练+推理全程稀疏注意力的里程碑

融合范式确立（2025.9–2026.1）

描述：SLA（ICLR 2026 Oral）确立"大权重稀疏+小权重线性"的融合范式，SALAD 和 VMonarch 从不同角度验证稀疏+线性混合设计。

关键节点：

2025.9：SLA（ICLR 2026 Oral）：稀疏-线性注意力融合，13.7x 注意力加速
2026.1：SALAD：门控线性注意力并行分支，2000 样本微调达 90% 稀疏度
2026.1：VMonarch：Monarch 矩阵结构化注意力，17.5x FLOPs 减少

极致推进（2026.1–2026.4）

描述：SLA2 将加速比推向 18.6x，Light Forcing 首次面向自回归视频扩散设计稀疏方案，SVG-EAR 刷新免训练方法帕累托前沿，AdaSpa 以零开销搜索获得 ICCV 2025 接收。

关键节点：

2026.2：SLA2：可学习路由 + 量化感知训练，18.6x 注意力加速
2026.2：Light Forcing：首个 AR 视频扩散稀疏注意力
2026.3：SVG-EAR：误差感知路由 + 聚类质心补偿，1.93x 免训练加速
2026.2：AdaSpa（ICCV 2025）：LSE 缓存搜索，免训练免数据最优解

1. SLA：稀疏-线性注意力融合——自定义GPU Kernel实现13.7倍注意力加速（ICLR 2026 Oral）

论文: SLA
arXiv: 2509.24006
机构: 清华大学, UC Berkeley

1.1 研究动机

核心问题： 视频DiT中全注意力O(N²)复杂度导致推理延迟极高。

注意力权重可分为两部分：少量大权重(高秩)和大量小权重(低秩)。这天然暗示：对大权重用稀疏注意力(O(N²)但只算少量)，对小权重用线性注意力(O(N))。现有方法要么纯稀疏（丢失低秩信息）要么纯线性（无法捕捉局部关键依赖），SLA首次将两者系统融合。

前序工作及局限：

稀疏注意力(Top-K/局部窗口)：丢失信息或不灵活
线性注意力(Linear Transformer)：表达能力不足

与前序工作的本质区别： SLA首次系统性融合稀疏+线性注意力，通过三级分类+自定义GPU kernel实现最优分配。

1.2 方法原理

方法框架图

SLA的核心设计：

(1) 三级分类：将注意力权重按大小分为Critical(精确计算)、Marginal(线性注意力近似)、Negligible(跳过)三个级别。

(2) 融合GPU Kernel：将稀疏注意力和线性注意力的前向/反向计算融合到单个自定义GPU kernel中，消除额外显存开销和kernel launch延迟。

(3) 轻量微调：仅需少量步即可在目标视频DiT模型上完成适配。

1.3 核心创新

首次系统性融合稀疏注意力与线性注意力
提出三级权重分类：Critical(O(N²)精确)+Marginal(O(N)线性)+Negligible(跳过)
实现自定义GPU kernel支持前向+反向传播融合计算
95%注意力计算减少，13.7倍注意力加速，2.2倍端到端加速
ICLR 2026 Oral——学术最高认可

1.4 实验结果

实验结果

注意力计算减少95%（20倍）
注意力加速13.7倍
端到端加速2.2倍（Wan 2.1-1.3B）
生成质量无损（VBench指标保持）
ICLR 2026 Oral接收

1.5 关键洞察

优势：ICLR 2026 Oral验证了方法的学术价值；自定义kernel可直接工业落地；2.2x E2E加速是质量无损方法的最优数字。局限：目前仅在1.3B模型上验证，14B+模型效果未知；kernel需针对不同硬件调优。

技术演进定位： 稀疏-线性融合范式的奠基工作(ICLR 2026 Oral)。

可能的后续方向：

更大模型验证(14B+)
与蒸馏/缓存叠加

2. SLA2：可学习路由+量化感知训练——97%稀疏度实现18.6倍注意力加速

论文: SLA2
arXiv: 2602.12675
机构: 清华大学, UC Berkeley

2.1 研究动机

核心问题： SLA采用固定的三级分类边界，无法适应不同层/头/时间步的动态变化。

SLA2提出：能否让模型自己学习最优的稀疏-线性分配比例？同时，SLA未利用量化技术进一步压缩计算，存在额外压缩空间。

前序工作及局限：

SLA：固定三级分类，ICLR 2026 Oral
量化感知训练(QAT)：LLM领域成熟技术

与前序工作的本质区别： SLA2引入可学习路由器实现层级自适应+QAT进一步压缩，将加速比从13.7x提升到18.6x。

2.2 方法原理

方法框架图

SLA2的核心改进：

(1) 可学习路由器：每层每头配备轻量路由网络，动态预测每个注意力块应使用稀疏、线性还是跳过策略。

(2) 改进注意力公式：重新设计稀疏+线性混合公式，更好地贴合原始SLA的分解动机，减少近似误差。

(3) 量化感知训练(QAT)：联合训练路由器和量化参数，在INT4/INT8精度下保持质量。

2.3 核心创新

突破SLA固定分类上限，引入可学习路由器动态调节稀疏/线性比例
提出贴合原始分解动机的改进注意力公式
量化感知训练(QAT)进一步压缩推理成本
97%注意力稀疏度，18.6倍注意力加速
质量保持与全注意力几乎无差距

2.4 实验结果

实验结果

97%注意力稀疏度（仅3%计算量）
18.6倍注意力加速
视频生成质量与全注意力几乎无差距
支持INT4量化进一步压缩

2.5 关键洞察

优势：在SLA基础上进一步将加速比提升35%，可学习路由实现层级自适应。局限：需要训练路由器（非免训练）；QAT引入额外训练复杂性。

技术演进定位： SLA范式的极致推进。

可能的后续方向：

与稀疏+蒸馏联合优化
消费级设备部署

3. SVG-EAR：误差感知路由+无参数线性补偿——免训练1.93倍端到端加速

论文: SVG-EAR
arXiv: 2603.08982
机构: UC Berkeley

3.1 研究动机

核心问题： 免训练稀疏注意力丢弃被跳过块后信息损失且传统路由不精确。

现有稀疏注意力面临两难：直接丢弃被跳过块会丢失信息；用学习型预测器近似又引入训练开销和分布偏移。SVG-EAR提出关键洞察：经过语义聚类后，同一块内的key/value具有高度相似性，可用少量聚类质心准确概括。

前序工作及局限：

Sparse VideoGen/SVG2：在线稀疏模式识别
CalibAtt：离线校准静态模式

与前序工作的本质区别： SVG-EAR用聚类质心无参数恢复被跳过块+误差感知路由替代传统注意力分数路由。

3.2 方法原理

方法框架图

SVG-EAR的核心设计：

(1) 聚类质心补偿：对被跳过的注意力块，用key/value的聚类质心做线性(O(N))近似，恢复其对输出的贡献。

(2) 误差感知路由：不按注意力分数选择块，而是用轻量探测器估计每个块的补偿误差，选择'误差-成本比'最高的块做精确计算。

(3) 理论保证：提供注意力重建误差与聚类质量之间的理论上界。

3.3 核心创新

颠覆传统'高注意力分数=重要'的假设，改为'高近似误差=需要精确计算'
无参数线性补偿：用聚类质心O(N)恢复被跳过块的贡献
误差感知路由：选择误差-成本比最高的块做精确计算
提供注意力重建误差的理论上界

3.4 实验结果

实验结果

Wan 2.2：1.77x端到端加速，PSNR 29.759
HunyuanVideo：1.93x端到端加速，PSNR 31.043
显著优于Sparse VideoGen2和CalibAtt
完全免训练

3.5 关键洞察

优势：免训练、有理论保证、误差感知路由思路优雅。局限：聚类质心计算本身有开销；PSNR不是视频生成的最佳指标；加速上限受限于免训练范式。

技术演进定位： 免训练稀疏注意力的帕累托前沿。

可能的后续方向：

与可训练方法结合
聚类效率优化

4. VSA：端到端可训练稀疏注意力——从预训练阶段替换全注意力（NeurIPS 2025）

论文: VSA
arXiv: 2505.13389
机构: UC Berkeley, FastVideo

4.1 研究动机

核心问题： 稀疏注意力仅用于推理，训练仍需全注意力导致训练-推理不一致。

现有稀疏注意力主要用于推理加速，训练仍需全注意力。这导致训练-推理不一致和训练成本居高不下。VSA提出核心问题：能否设计一种从训练到推理全程使用的稀疏注意力，彻底替代全注意力？

前序工作及局限：

所有推理时稀疏方法：训练仍用全注意力
FlashAttention：全注意力的高效实现

与前序工作的本质区别： VSA首次证明可训练稀疏注意力可从预训练阶段全程替代全注意力。

4.2 方法原理

方法框架图

VSA采用层次化两阶段设计：

(1) 粗粒度阶段：将token序列划分为3D cubes并池化为粗粒度表示，用低成本全注意力预测每个cube的重要性分数，选出关键token区域。

(2) 细粒度阶段：仅在预测的关键区域执行token级精确注意力，形成块稀疏计算模式。

(3) 硬件对齐：cube大小和块大小均对齐GPU的执行粒度，最大化并行效率。

4.3 核心创新

首个在预训练阶段就替换全注意力的可训练稀疏注意力
层次化设计：粗粒度cube池化预测关键token+细粒度块稀疏注意力
硬件对齐：所有操作均对齐GPU warp/SM执行模式
训练和推理双加速——不仅加速推理，还加速训练
建立可训练稀疏注意力作为全注意力实用替代的里程碑

4.4 实验结果

实验结果

训练和推理同时加速
在视频生成质量上与全注意力基线持平
显著降低训练GPU小时数
建立可训练稀疏注意力作为全注意力的实用替代
NeurIPS 2025接收

4.5 关键洞察

优势：训练+推理双加速是独特卖点；硬件对齐设计实用性强；NeurIPS 2025验证了学术质量。局限：粗粒度预测可能丢失细粒度关键信息；需要从头预训练或大量微调。

技术演进定位： 训练范式变革的先驱(NeurIPS 2025)。

可能的后续方向：

更大规模模型验证
社区标准化

5. Sparse-vDiT：三模式稀疏Pattern识别+定制Kernel——视频DiT注意力图的系统性利用（AAAI 2026）

论文: Sparse-vDiT
arXiv: 2506.03065
机构: 多机构合作

5.1 研究动机

核心问题： 统一稀疏策略未充分利用视频DiT注意力图的结构特征。

此前的稀疏注意力方法大多采用统一的稀疏策略（如Top-K或块级稀疏），未充分利用视频DiT注意力图的结构特征。Sparse-vDiT通过详细分析注意力图，发现三种反复出现的稀疏模式，并为每种模式定制高效计算方案。

前序工作及局限：

通用稀疏注意力：统一Top-K或块级策略
FlashAttention：稠密注意力优化

与前序工作的本质区别： Sparse-vDiT系统识别三种稀疏Pattern并为每种设计专用kernel。

5.2 方法原理

方法框架图

Sparse-vDiT的核心设计：

(1) 稀疏模式识别：通过统计分析发现视频DiT注意力图中三种主导模式——对角线(diagonal)反映时间邻近性、多对角线(multi-diagonal)反映空间局部性、竖条纹(vertical-stripe)反映全局anchor token。

(2) Pattern-Optimized Sparse Kernels：为每种模式设计专用的CUDA kernel，将稠密注意力替换为结构化稀疏计算。

(3) 自适应模式选择：根据每层每头的注意力分布自动选择最匹配的稀疏模式。

5.3 核心创新

系统性识别视频DiT注意力图中的三种稀疏模式：对角线、多对角线、竖条纹
为每种模式设计定制的高效计算kernel
同时减少理论FLOPs和实际推理延迟
即插即用框架，适配多种视频DiT模型
AAAI 2026接收

5.4 实验结果

实验结果

理论FLOPs大幅减少
实际推理速度显著提升
视觉质量保持
适配HunyuanVideo等主流模型
AAAI 2026接收

5.5 关键洞察

优势：对注意力图的结构化分析深入，三种模式的识别有启发性；定制kernel实现到位。局限：固定的三种模式可能无法覆盖所有场景；模式选择的开销需考虑。

技术演进定位： Pattern-aware稀疏注意力的开拓者(AAAI 2026)。

可能的后续方向：

更多Pattern发现
自动Pattern选择

6. SALAD：门控线性注意力并行分支——仅2000样本微调实现90%稀疏度

论文: SALAD
arXiv: 2601.16515
机构: 清华大学, 腾讯

6.1 研究动机

核心问题： 免训练稀疏度受限于50-70%，而训练型方法计算成本高。

免训练稀疏注意力受限于有限的稀疏度（通常50-70%），突破稀疏度上限需要训练。但训练型方法通常需要大量数据和计算。SALAD提出：能否用极轻量的微调达到极高稀疏度？

前序工作及局限：

免训练稀疏方法：稀疏度上限有限
SLA：需要较多微调步数

与前序工作的本质区别： SALAD用极轻量微调(2000样本)在稀疏注意力旁添加线性分支达到90%稀疏度。

6.2 方法原理

方法框架图

SALAD的核心设计：

(1) 双分支并行：在原始稀疏注意力旁边添加一个轻量线性注意力分支，线性分支负责捕捉被稀疏注意力丢弃的低秩信息。

(2) 输入依赖门控：用可学习门控机制根据输入内容动态调节两个分支的贡献权重。

(3) 极轻量微调：仅新增线性注意力层和门控网络的参数，用2000个视频样本1600步即可完成训练。

6.3 核心创新

在稀疏注意力旁添加轻量线性注意力并行分支
输入依赖门控机制动态平衡两分支贡献
极轻量微调：仅需2000个视频样本和1600步训练
90%稀疏度下质量与全注意力基线相当
1.72x推理加速

6.4 实验结果

实验结果

90%稀疏度，1.72x推理加速
生成质量与全注意力基线相当
仅需2000样本微调
适配多种视频DiT模型

6.5 关键洞察

优势：微调效率极高（2000样本），工程门槛低；门控机制优雅。局限：1.72x加速低于SLA的2.2x；线性注意力的表达能力有限。

技术演进定位： 工程门槛最低的稀疏-线性融合方案。

可能的后续方向：

门控机制改进
与VSA思路融合

7. VMonarch：Monarch矩阵结构化注意力——17.5倍FLOPs减少的数学最优解

论文: VMonarch
arXiv: 2601.22275
机构: 南京大学, 腾讯

7.1 研究动机

核心问题： 现有稀疏方法缺乏数学最优性保证。

视频DiT的注意力模式天然具有高度稀疏的时空结构，但现有稀疏方法(Top-K/局部窗口)要么不灵活要么丢失全局信息。VMonarch发现Monarch矩阵——一类具有灵活稀疏性的结构化矩阵——可以优雅地表示这些模式。

前序工作及局限：

Monarch Mixer(2023)：结构化矩阵在Mixer中的应用
Monarch in LLM：LLM注意力压缩

与前序工作的本质区别： VMonarch首次将Monarch矩阵引入视频DiT，提供时空注意力的数学最优分解。

7.2 方法原理

方法框架图

VMonarch的核心设计：

(1) 时空Monarch分解：将全注意力矩阵分解为帧内(空间)和帧间(时间)两组Monarch因子，分别捕捉空间和时间相关性。

(2) 交替最小化：通过交替优化两组因子来逼近原始全注意力，配合重计算策略解决收敛不稳定问题。

(3) 在线熵算法：融入FlashAttention的在线计算范式，使Monarch矩阵更新在长序列上高效可行。

7.3 核心创新

首次将Monarch矩阵引入视频DiT注意力
时空Monarch分解：帧内(空间)+帧间(时间)两组结构化因子
交替最小化+重计算策略解决不稳定问题
在线熵算法融入FlashAttention支持长序列
17.5倍FLOPs减少，5倍以上注意力加速

7.4 实验结果

实验结果

注意力FLOPs减少17.5倍
注意力计算加速5倍以上
90%稀疏度下超越所有SOTA稀疏注意力方法
轻量微调后VBench质量与全注意力相当

7.5 关键洞察

优势：数学上最优雅的方案；FlashAttention兼容；理论深度最强。局限：交替最小化收敛依赖初始化；实际wall-clock加速(5x)远小于理论FLOPs减少(17.5x)，存在实现瓶颈。

技术演进定位： 理论深度最强的结构化注意力方案。

可能的后续方向：

工程优化缩小理论-实际差距
与FlashAttention深度融合

8. Light Forcing：首个面向自回归视频扩散的稀疏注意力——Chunk-Aware Growth机制

论文: Light Forcing
arXiv: 2602.04789
机构: 多机构合作

8.1 研究动机

核心问题： 现有稀疏注意力面向双向扩散模型，忽视自回归视频生成的因果特性。

现有稀疏注意力主要面向双向扩散模型(如Wan/HunyuanVideo)，而自回归视频扩散模型(如GameGen/Oasis/CogVideoX-AR)的因果结构与双向模型截然不同。Light Forcing首次为AR视频扩散定制稀疏注意力方案。

前序工作及局限：

双向扩散稀疏方法：SVG/CalibAtt/SLA等
AR视频扩散模型：CogVideoX-AR/GameGen

与前序工作的本质区别： Light Forcing首次为AR视频扩散定制Chunk-Aware Growth稀疏注意力。

8.2 方法原理

方法框架图

Light Forcing的核心设计：

(1) AR注意力模式分析：发现AR视频扩散中注意力呈现因果增长的独特模式——新生成帧主要关注临近帧和关键锚帧。

(2) Chunk-Aware Growth机制：将视频序列划分为因果chunk，稀疏注意力范围随chunk增长动态扩展，保持对历史的选择性回顾。

(3) 锚帧保留策略：自动识别并保留关键参考帧的全注意力计算，确保长程一致性。

8.3 核心创新

首个专门面向自回归(AR)视频生成模型的稀疏注意力
提出Chunk-Aware Growth机制适应AR生成的因果增长特性
发现AR视频扩散中独特的注意力稀疏模式
兼顾质量提升和效率加速
开源代码和模型

8.4 实验结果

实验结果

AR视频生成质量提升（质量和效率双赢）
推理速度显著加速
长视频生成的一致性提升
代码开源

8.5 关键洞察

优势：AR视频生成方向的首个稀疏注意力方案，填补空白；Chunk-Aware Growth设计与AR范式天然匹配。局限：AR视频生成模型本身尚未成为主流；方法可推广性受限于AR架构。

技术演进定位： AR视频生成稀疏加速的开创者。

可能的后续方向：

AR范式普及后的标准化
与KV缓存压缩联合

9. CalibAtt：离线校准+在线高效推理——跨输入稳定的块级稀疏模式

论文: CalibAtt
arXiv: 2603.05503
机构: 以色列理工

9.1 研究动机

核心问题： 免训练方法需要在线动态判断token重要性，开销大。

已有稀疏注意力方法要么需要训练，要么在线动态判断token重要性(开销大)。CalibAtt发现核心洞察：稀疏模式在不同输入上惊人地稳定，可以离线一次校准、在线直接复用。

前序工作及局限：

Sparse VideoGen：在线3%样本分析
动态稀疏方法：运行时判断开销

与前序工作的本质区别： CalibAtt发现稀疏模式跨输入稳定，可离线固定复用。

9.2 方法原理

方法框架图

CalibAtt采用两阶段策略：

(1) 离线校准阶段：在少量参考视频上运行全注意力，统计每一层、每个头、每个扩散时间步的块级稀疏模式和重复模式。

(2) 模式编译：将稳定的稀疏模式编译为优化的注意力操作(类似JIT编译)。

(3) 在线推理：只计算被选中的输入相关连接，以硬件友好方式跳过未选中连接。

9.3 核心创新

发现关键洞察：大量token-to-token连接在不同输入上一致地产生可忽略的注意力分数
离线校准+在线推理两阶段策略
层-头-时间步三维稀疏模式校准
块级粒度兼顾精度和硬件效率
完全免训练，1.58x端到端加速

9.4 实验结果

实验结果

Wan 2.1 14B、Mochi 1及其蒸馏版本上实现1.58x端到端加速
视频生成质量和文本-视频对齐度优于已有免训练方法
支持多种分辨率
完全免训练

9.5 关键洞察

优势：完全免训练、直接即插即用；离线校准成本低；硬件友好。局限：1.58x加速比在近期方法中不突出；对新架构需重新校准；块级粒度可能丢失细粒度信息。

技术演进定位： 离线校准范式的开创者。

可能的后续方向：

模式自动更新
新架构快速适配

10. AdaSpa：动态模式+在线精确搜索——面向长视频的自适应稀疏注意力（ICCV 2025）

论文: AdaSpa
arXiv: 2502.21079
机构: 字节跳动, 北京大学

10.1 研究动机

核心问题： 动态模式和在线搜索难以兼顾，现有方法牺牲其一。

现有免训练稀疏方法要么用固定模式(无法适应动态变化)，要么在线搜索开销大。AdaSpa提出：能否将动态模式与在线精确搜索结合，实现既准确又高效的自适应稀疏注意力？

前序工作及局限：

固定模式方法：CalibAtt等，无法动态适应
在线搜索方法：开销大

与前序工作的本质区别： AdaSpa利用FlashAttention的LSE副产品零开销实现在线精确搜索。

10.2 方法原理

方法框架图

AdaSpa的核心设计：

(1) 块化模式(Blockified Pattern)：将注意力矩阵划分为层次化block结构，高效表示DiT中的多尺度稀疏性。

(2) LSE缓存搜索：利用FlashAttention计算过程中的LogSumExp副产品作为block重要性信号，零额外开销精确定位关键token区域。

(3) 自适应稀疏决策：根据每步动态计算的重要性信号决定哪些block需要精确计算，实现自适应稀疏。

10.3 核心创新

首个结合动态模式和在线精确搜索的稀疏注意力方法
块化模式(Blockified Pattern)高效表示DiT的层次稀疏性
LSE(LogSumExp)缓存搜索实现精确重要token定位
免训练、免数据、即插即用
面向长视频生成加速
ICCV 2025接收

10.4 实验结果

实验结果

长视频生成速度显著提升
视觉质量与原始模型几乎相同
免训练、免数据
ICCV 2025接收
适配OpenSora等模型

10.5 关键洞察

优势：LSE缓存搜索零开销，设计极其优雅；免训练免数据实用性最强。局限：依赖FlashAttention实现，对其他注意力实现不通用。

技术演进定位： 免训练免数据方案的最优解(ICCV 2025)。

可能的后续方向：

推广到更多注意力实现
与缓存方法叠加

其余论文速览

免训练框架 & 稀疏注意力基础

1. Sparse VideoGen：首个系统性利用3D全注意力天然稀疏性的免训练加速框架

Sparse VideoGen: Accelerating Video Diffusion Transformers with Inherent Sparsity | arXiv:2502.01776 | UC Berkeley

关键词： 免训练, 空间/时间稀疏, 3D全注意力, 系列开山作

前序工作问题： 视频DiT的3D全注意力被视为黑盒，其内在稀疏性未被系统性利用。

贡献： 首个系统性利用3D全注意力天然稀疏性的免训练加速框架，在线3%样本分析识别空间/时间稀疏模式。

效果： 在Wan/HunyuanVideo/Mochi上实现高效免训练加速，开创Sparse VideoGen系列。

批判点评： 方向开创性强，但在线分析存在开销；后续SVG2和SVG-EAR在其基础上大幅改进。

2. Sparse VideoGen2：语义聚类驱动的稀疏注意力加速

Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Clustering | arXiv:2505.18875 | UC Berkeley

关键词： 语义聚类, K-Means, 空间/时间稀疏, SVG系列第二代

前序工作问题： SVG的在线稀疏模式分析精度有限，缺乏语义层面的理解。

贡献： 基于K-Means语义聚类的稀疏注意力加速，自动发现空间和时间两种稀疏模式并分别优化。

效果： 在SVG基础上进一步提升加速比，聚类质量直接影响加速效果。

批判点评： 语义聚类方向正确，但K-Means本身有计算开销；已被SVG-EAR的误差感知路由超越。

缓存与混合加速

3. TempCache：面向自回归视频扩散的时间缓存压缩+稀疏注意力联合加速

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention | arXiv:2602.01801 | 多机构合作

关键词： KV缓存压缩, 自回归, 世界模型, AnnCA

前序工作问题： 自回归视频扩散模型的KV缓存随序列增长线性膨胀，导致长视频生成效率低下。

贡献： 面向自回归视频扩散的时间KV缓存压缩+稀疏注意力联合加速，AnnCA近似近邻注意力。

效果： 长视频流式生成效率大幅提升，支持视频世界模型。

批判点评： KV缓存压缩与稀疏注意力正交互补，联合使用前景广阔；AnnCA的近似精度需关注。

4. SODA：敏感度导向的缓存+剪枝统一框架

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer | arXiv:2603.07057 | 多机构合作

关键词： 敏感度建模, 动态规划, 缓存+剪枝, 统一框架

前序工作问题： 缓存和剪枝分别独立设计，缺乏统一最优策略。

贡献： 敏感度导向的缓存+剪枝统一框架，通过动态规划求解最优缓存时间点。

效果： 在DiT-XL/PixArt-α/OpenSora上实现SOTA保真度-加速比权衡。

批判点评： 统一框架设计优雅，动态规划给出理论最优解；但离线分析和迁移成本需考虑。

5. EasyCache：免训练自适应缓存加速，与SVG稀疏注意力可叠加

Less is Enough: Training-Free Video Diffusion Acceleration via Adaptive Caching | arXiv:2507.03065 | 多机构合作

关键词： 免训练, 自适应缓存, 可叠加, 3x加速

前序工作问题： 缓存方法和稀疏注意力通常独立设计，能否叠加加速？

贡献： 无需训练的自适应缓存加速，运行时自适应决策何时复用何时重算，与SVG稀疏注意力可叠加。

效果： SVG+EasyCache在HunyuanVideo上实现3x以上加速。

批判点评： 叠加性是关键价值——稀疏注意力+缓存的联合使用开辟了组合加速新思路。

6. FasterCache：免训练视频扩散缓存加速（ICLR 2026）

FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality | ICLR 2026 | 多机构合作

关键词： 免训练缓存, 时间步复用, ICLR 2026, 全自注意力

前序工作问题： 视频扩散不同时间步之间的特征相似性未被充分利用。

贡献： 免训练视频扩散缓存加速，利用全自注意力层的时间步相关性进行特征复用。

效果： 在CogVideoX/Vchitect 2.0/Mochi上实现高质量免训练加速。

批判点评： ICLR 2026接收验证了方法的严谨性；缓存+稀疏注意力的协同将是未来主流。

滑动窗口与训练加速

7. STA：Tile级滑动窗口注意力——硬件友好设计实现2.8-17x注意力加速（ICML 2025）

Fast Video Generation with Sliding Tile Attention | arXiv:2502.04507 | UC Berkeley (Hao AI Lab)

关键词： 滑动窗口, Tile级, 硬件友好, ICML 2025, 免训练

前序工作问题： Token级滑动窗口注意力(SWA)在GPU上硬件利用率低，无法充分利用视频DiT注意力的3D局部性。

贡献： 提出Tile级滑动窗口注意力替代Token级，利用视频DiT注意力在3D时空局部窗口内集中的特性，硬件友好设计。

效果： 注意力加速2.8-17x(vs FlashAttention-2)，端到端1.36-3.53x加速，HunyuanVideo延迟从945s降至268s，ICML 2025接收。

批判点评： 与稀疏注意力正交互补——STA处理局部窗口、稀疏方法处理全局选择，二者可叠加；ICML 2025验证了学术质量。

8. BSA：双向稀疏注意力——首个同时稀疏化Query和KV的训练加速方法

Bidirectional Sparse Attention for Faster Video Diffusion Training | arXiv:2509.01085 | UC Berkeley (Hao AI Lab)

关键词： 训练加速, 双向稀疏, Query+KV稀疏, 动态阈值, 20x FLOPs

前序工作问题： 现有稀疏注意力仅稀疏化KV端，Query端仍完整计算；且使用固定稀疏模式无法适应DiT的动态注意力特性。

贡献： 首个同时动态稀疏化Query和KV对的训练加速方法，通过语义相似性选择Query+动态阈值保留关键KV块。

效果： 训练FLOPs减少20x，注意力训练加速17.79x，生成质量与全注意力持平或超越。

批判点评： 与VSA同属训练加速方向但策略不同——VSA替换注意力机制，BSA在全注意力内部做双向稀疏；二者思路互补。

9. NABLA：自适应块级注意力——CDF二值化+Flex Attention免自定义CUDA

∇NABLA: Neighborhood Adaptive Block-Level Attention | arXiv:2507.13546 | AI Forever

关键词： 块级注意力, CDF二值化, Flex Attention, 训练+推理, 开源权重

前序工作问题： 自定义CUDA kernel开发门槛高，限制了稀疏注意力方法的社区采用。

贡献： 自适应块级注意力：下采样Q/K后在压缩空间计算注意力，CDF二值化生成稀疏mask，集成PyTorch Flex Attention无需自定义CUDA。

效果： 训练和推理加速最高2.7x，可与STA叠加使用，Wan 2.1预微调权重已开源。

批判点评： 工程门槛最低——无需写CUDA即可使用稀疏注意力；与STA叠加使用的设计体现了模块化组合的趋势。

工业级落地

10. SSTA (HunyuanVideo 1.5)：选择性+滑动Tile注意力——工业级视频生成模型的稀疏注意力实践

HunyuanVideo 1.5 Technical Report — Selective and Sliding Tile Attention | arXiv:2511.18870 | 腾讯混元

关键词： SSTA, 选择性注意力, 滑动Tile, 工业级, 消费级GPU, 开源

前序工作问题： 学术界的稀疏注意力方案多在研究模型上验证，缺乏工业级视频生成模型中的端到端集成和大规模验证。

贡献： 提出SSTA(Selective and Sliding Tile Attention)：识别并剪除冗余时空KV块，仅对高信息区域执行全注意力，集成于8.3B参数的工业级视频生成模型。

效果： 10秒720p视频端到端1.87x加速(vs FlashAttention-3)，消费级GPU可运行，开源模型权重。

批判点评： 稀疏注意力从学术论文走向工业产品的标志性案例——SSTA融合了STA的滑动窗口和选择性剪枝，验证了稀疏注意力在大规模模型中的实用性。

蒸馏与替代注意力

11. FastLightGen：步数+参数同时压缩的三阶段协同蒸馏

FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters | arXiv:2603.01685 | 香港科技大学(广州)

关键词： 步数蒸馏, 参数剪枝, 联合压缩, 35x加速

前序工作问题： 步数蒸馏和参数剪枝独立应用效果有限，联合优化缺乏系统方案。

贡献： 步数+参数同时压缩的三阶段协同蒸馏管线，将13B模型压缩至30%参数4步推理。

效果： 35x加速HunyuanVideo/WanX，5秒视频数秒内生成。

批判点评： 蒸馏+稀疏注意力理论上可达5-10x无损加速，FastLightGen展示了单路线的极限。

12. FrameDiT：帧级矩阵注意力替代token级全注意力

FrameDiT: Frame-level Matrix Attention for Video Diffusion Transformers | arXiv:2603.10200 | 多机构合作

关键词： 帧级注意力, 矩阵注意力, 结构化, 需训练

前序工作问题： Full 3D注意力过于精细（token级），而Local Factorized Attention过于粗略（帧内/帧间分离），缺乏中间粒度设计。

贡献： 帧级矩阵注意力替代token级全注意力，粒度介于Full 3D和Local Factorized之间。

效果： 效率与Local Factorized Attention相当，多个视频生成benchmark达到SOTA。

批判点评： 帧级粒度提供了token级和因子化之间的有趣折中，但需要训练限制了即插即用性。

13. Diagonal Distillation：将双向扩散模型蒸馏为自回归生成器实现277x加速

From Slow Bidirectional to Fast Autoregressive Video Diffusion Models via Diagonal Distillation | arXiv:2603.10200 | Nvidia, Technion

关键词： 对角蒸馏, 277x加速, 自回归, 实时生成

前序工作问题： 双向扩散模型质量高但推理慢，能否将其知识蒸馏到更快的自回归架构？

贡献： 将双向扩散模型蒸馏为自回归生成器，对角蒸馏+隐式光流实现277x加速。

效果： 31 FPS实时生成，极端加速但存在质量损失。

批判点评： 277x加速数字惊人，代表了效率极端追求的方向；但质量损失限制了实际应用。

社区资源

14. Awesome-Video-Attention：视频注意力加速方法系统性综述

Awesome-Video-Attention: A Curated Survey of Efficient Video Attention Methods | GitHub (hao-ai-lab) | UC Berkeley (Hao AI Lab)

关键词： 综述, 社区资源, 全技术栈, 持续更新

前序工作问题： 视频注意力加速方法论文爆发式增长，缺乏系统梳理。

贡献： 视频注意力加速方法的系统性综述列表，涵盖稀疏化/量化/缓存等全部技术路线。

效果： 社区标准参考，持续更新，按时间逆序排列。

批判点评： 入门和跟踪该方向的最佳起点；由SVG/VSA团队维护，权威性高。

横向对比：稀疏注意力在视频生成中的技术路线对比

方法	方法类别	是否需要训练	注意力加速	端到端加速	测试模型	质量保持
SLA	稀疏+线性融合	轻量微调	13.7x	2.2x	Wan 2.1 1.3B	★★★★★
SLA2	稀疏+线性+量化	可学习路由	18.6x	-	视频DiT	★★★★★
SVG-EAR	稀疏+线性补偿	免训练	-	1.93x	Wan 2.2 / HunyuanVideo	★★★★
VSA	可训练稀疏	预训练替换	训练+推理	-	视频DiT	★★★★★
Sparse-vDiT	Pattern定制kernel	免训练	显著	显著	HunyuanVideo	★★★★
SALAD	稀疏+线性门控	2000样本微调	-	1.72x	视频DiT	★★★★
VMonarch	结构化Monarch	轻量微调	5x	-	VBench	★★★★
Light Forcing	AR稀疏	免训练	显著	-	AR视频DiT	★★★★
CalibAtt	离线校准稀疏	免训练	-	1.58x	Wan 2.1 14B / Mochi	★★★★
AdaSpa	自适应稀疏	免训练免数据	显著	显著	OpenSora	★★★★★

总结与展望

回顾本专题的 24 篇工作，稀疏注意力在视频生成中已形成三条清晰的技术路线：

免训练路线（CalibAtt / SVG-EAR / AdaSpa / STA）：零成本即插即用，天花板约 2x，适合快速验证和社区扩散
轻量微调路线（SLA / SLA2 / SALAD / NABLA）：2000 样本即可达 5-18x 注意力加速，工程门槛适中
全程可训练路线（VSA / BSA）：从预训练阶段替换全注意力，训练+推理双加速，但需要从头训练

三条路线并非互相替代，而是适用于不同的部署场景和资源约束。更值得关注的是，多方法叠加（稀疏注意力 + 缓存 + 蒸馏 + 量化）正在成为主流趋势——EasyCache + SVG 已达 3x+，SLA2 QAT 展示了稀疏 + 量化的协同效果，SSTA 在 HunyuanVideo 1.5 中的工业落地则证明这些技术已具备产品化能力。

开放问题：随着视频 DiT 模型规模持续增长（从 1.3B 到 14B+）、视频分辨率和时长不断提升，稀疏注意力的加速收益是否会继续线性扩展？自回归视频生成范式的兴起又将对稀疏注意力设计带来哪些新约束？这些问题将是下一阶段的核心研究方向。