视频扩散 Transformer(Video DiT)正在成为视频生成的主流架构。从 Wan 2.2、HunyuanVideo 到 CogVideoX,这些模型普遍采用 3D 全注意力(Full 3D Attention),让每个 token 都能与序列中所有其他 token 交互。这种设计虽然带来了出色的生成质量,但代价极为沉重——对于一段 5 秒 720P 的视频,注意力序列长度轻松达到数十万 token,O(N²) 的计算复杂度使得注意力运算占据了总推理时间的 80% 以上。
一个关键的观察是:视频 DiT 的注意力图天然是高度稀疏的。大量 token 之间的注意力权重可以忽略不计,真正重要的交互集中在时间相邻帧、空间局部区域和少量全局"锚点"之间。这一特性意味着,如果能精确识别并跳过无关计算,就能在几乎不损失质量的前提下获得数倍乃至十倍以上的加速。
过去一年(2025年5月—2026年4月),稀疏注意力在视频生成方向经历了爆发式发展:从最初的免训练启发式方法到精心设计的可训练替代方案,从纯稀疏到稀疏-线性融合,从双向扩散到自回归生成,技术路线日趋丰富。本专题系统梳理这一时期的 24 篇核心工作(深度解读 10 篇 + 速览 14 篇),涵盖 ICLR 2026 Oral、NeurIPS 2025、AAAI 2026、ICCV 2025、ICML 2025 等顶会成果,呈现该方向的完整技术演进脉络。
稀疏注意力的演进路线清晰:免训练方法(CalibAtt / SVG-EAR / AdaSpa)天花板约 2x,轻量微调(SALAD / SLA)突破至 2-5x,全程可训练(VSA / BSA)则实现训练+推理双加速。三条路线并行发展,适用于不同部署场景。
SLA(ICLR 2026 Oral)确立了"大权重用稀疏、小权重用线性"的分工模式。SLA2 通过可学习路由将其推向极致(18.6x),SALAD 用门控机制轻量化实现同一思路。这一范式的优势在于理论完备且工程可落地。
从统一稀疏策略到结构化利用:Sparse-vDiT 识别三种 Pattern(对角线/多对角线/竖条纹)、VMonarch 用 Monarch 矩阵表示时空结构、CalibAtt 发现跨输入稳定性。理解注意力图的内在结构是设计更好稀疏方案的关键。
Light Forcing 和 TempCache 分别面向 AR 视频扩散设计稀疏注意力和缓存压缩。随着 AR 范式(CogVideoX-AR / GameGen)兴起,因果注意力的稀疏化将成为新研究热点。
EasyCache + SVG 可叠加达 3x+;SLA + 步数蒸馏理论可达 5-10x 无损加速;稀疏注意力 + 量化(SLA2 QAT)+ 缓存三者联合,加之 SSTA 在 HunyuanVideo 1.5 中的工业级落地实践,正推动视频生成走向消费级设备实时部署。
本专题 24 篇论文按技术路线分为以下子方向:
含 ICLR 2026 Oral × 1, ICLR 2026 × 1, NeurIPS 2025 × 1, AAAI 2026 × 1, ICCV 2025 × 1, ICML 2025 × 1
描述:Sparse Attention 从 LLM 领域迁移到视频 DiT,研究者开始发现视频扩散 Transformer 3D 全注意力中天然存在的稀疏性。
关键节点:
描述:Sparse VideoGen 系列开创免训练框架,系统性利用 3D 全注意力天然稀疏性实现视频 DiT 推理加速。
关键节点:
描述:VSA 首次证明可训练稀疏注意力可在预训练阶段全程替代全注意力,实现训练+推理双加速。
关键节点:
描述:SLA(ICLR 2026 Oral)确立"大权重稀疏+小权重线性"的融合范式,SALAD 和 VMonarch 从不同角度验证稀疏+线性混合设计。
关键节点:
描述:SLA2 将加速比推向 18.6x,Light Forcing 首次面向自回归视频扩散设计稀疏方案,SVG-EAR 刷新免训练方法帕累托前沿,AdaSpa 以零开销搜索获得 ICCV 2025 接收。
关键节点:
论文: SLA
arXiv: 2509.24006
机构: 清华大学, UC Berkeley
核心问题: 视频DiT中全注意力O(N²)复杂度导致推理延迟极高。
注意力权重可分为两部分:少量大权重(高秩)和大量小权重(低秩)。这天然暗示:对大权重用稀疏注意力(O(N²)但只算少量),对小权重用线性注意力(O(N))。现有方法要么纯稀疏(丢失低秩信息)要么纯线性(无法捕捉局部关键依赖),SLA首次将两者系统融合。
前序工作及局限:
与前序工作的本质区别: SLA首次系统性融合稀疏+线性注意力,通过三级分类+自定义GPU kernel实现最优分配。
方法框架图
SLA的核心设计:
(1) 三级分类:将注意力权重按大小分为Critical(精确计算)、Marginal(线性注意力近似)、Negligible(跳过)三个级别。
(2) 融合GPU Kernel:将稀疏注意力和线性注意力的前向/反向计算融合到单个自定义GPU kernel中,消除额外显存开销和kernel launch延迟。
(3) 轻量微调:仅需少量步即可在目标视频DiT模型上完成适配。
实验结果
优势:ICLR 2026 Oral验证了方法的学术价值;自定义kernel可直接工业落地;2.2x E2E加速是质量无损方法的最优数字。局限:目前仅在1.3B模型上验证,14B+模型效果未知;kernel需针对不同硬件调优。
技术演进定位: 稀疏-线性融合范式的奠基工作(ICLR 2026 Oral)。
可能的后续方向:
论文: SLA2
arXiv: 2602.12675
机构: 清华大学, UC Berkeley
核心问题: SLA采用固定的三级分类边界,无法适应不同层/头/时间步的动态变化。
SLA2提出:能否让模型自己学习最优的稀疏-线性分配比例?同时,SLA未利用量化技术进一步压缩计算,存在额外压缩空间。
前序工作及局限:
与前序工作的本质区别: SLA2引入可学习路由器实现层级自适应+QAT进一步压缩,将加速比从13.7x提升到18.6x。
方法框架图
SLA2的核心改进:
(1) 可学习路由器:每层每头配备轻量路由网络,动态预测每个注意力块应使用稀疏、线性还是跳过策略。
(2) 改进注意力公式:重新设计稀疏+线性混合公式,更好地贴合原始SLA的分解动机,减少近似误差。
(3) 量化感知训练(QAT):联合训练路由器和量化参数,在INT4/INT8精度下保持质量。
实验结果
优势:在SLA基础上进一步将加速比提升35%,可学习路由实现层级自适应。局限:需要训练路由器(非免训练);QAT引入额外训练复杂性。
技术演进定位: SLA范式的极致推进。
可能的后续方向:
论文: SVG-EAR
arXiv: 2603.08982
机构: UC Berkeley
核心问题: 免训练稀疏注意力丢弃被跳过块后信息损失且传统路由不精确。
现有稀疏注意力面临两难:直接丢弃被跳过块会丢失信息;用学习型预测器近似又引入训练开销和分布偏移。SVG-EAR提出关键洞察:经过语义聚类后,同一块内的key/value具有高度相似性,可用少量聚类质心准确概括。
前序工作及局限:
与前序工作的本质区别: SVG-EAR用聚类质心无参数恢复被跳过块+误差感知路由替代传统注意力分数路由。
方法框架图
SVG-EAR的核心设计:
(1) 聚类质心补偿:对被跳过的注意力块,用key/value的聚类质心做线性(O(N))近似,恢复其对输出的贡献。
(2) 误差感知路由:不按注意力分数选择块,而是用轻量探测器估计每个块的补偿误差,选择'误差-成本比'最高的块做精确计算。
(3) 理论保证:提供注意力重建误差与聚类质量之间的理论上界。
实验结果
优势:免训练、有理论保证、误差感知路由思路优雅。局限:聚类质心计算本身有开销;PSNR不是视频生成的最佳指标;加速上限受限于免训练范式。
技术演进定位: 免训练稀疏注意力的帕累托前沿。
可能的后续方向:
论文: VSA
arXiv: 2505.13389
机构: UC Berkeley, FastVideo
核心问题: 稀疏注意力仅用于推理,训练仍需全注意力导致训练-推理不一致。
现有稀疏注意力主要用于推理加速,训练仍需全注意力。这导致训练-推理不一致和训练成本居高不下。VSA提出核心问题:能否设计一种从训练到推理全程使用的稀疏注意力,彻底替代全注意力?
前序工作及局限:
与前序工作的本质区别: VSA首次证明可训练稀疏注意力可从预训练阶段全程替代全注意力。
方法框架图
VSA采用层次化两阶段设计:
(1) 粗粒度阶段:将token序列划分为3D cubes并池化为粗粒度表示,用低成本全注意力预测每个cube的重要性分数,选出关键token区域。
(2) 细粒度阶段:仅在预测的关键区域执行token级精确注意力,形成块稀疏计算模式。
(3) 硬件对齐:cube大小和块大小均对齐GPU的执行粒度,最大化并行效率。
实验结果
优势:训练+推理双加速是独特卖点;硬件对齐设计实用性强;NeurIPS 2025验证了学术质量。局限:粗粒度预测可能丢失细粒度关键信息;需要从头预训练或大量微调。
技术演进定位: 训练范式变革的先驱(NeurIPS 2025)。
可能的后续方向:
论文: Sparse-vDiT
arXiv: 2506.03065
机构: 多机构合作
核心问题: 统一稀疏策略未充分利用视频DiT注意力图的结构特征。
此前的稀疏注意力方法大多采用统一的稀疏策略(如Top-K或块级稀疏),未充分利用视频DiT注意力图的结构特征。Sparse-vDiT通过详细分析注意力图,发现三种反复出现的稀疏模式,并为每种模式定制高效计算方案。
前序工作及局限:
与前序工作的本质区别: Sparse-vDiT系统识别三种稀疏Pattern并为每种设计专用kernel。
方法框架图
Sparse-vDiT的核心设计:
(1) 稀疏模式识别:通过统计分析发现视频DiT注意力图中三种主导模式——对角线(diagonal)反映时间邻近性、多对角线(multi-diagonal)反映空间局部性、竖条纹(vertical-stripe)反映全局anchor token。
(2) Pattern-Optimized Sparse Kernels:为每种模式设计专用的CUDA kernel,将稠密注意力替换为结构化稀疏计算。
(3) 自适应模式选择:根据每层每头的注意力分布自动选择最匹配的稀疏模式。
实验结果
优势:对注意力图的结构化分析深入,三种模式的识别有启发性;定制kernel实现到位。局限:固定的三种模式可能无法覆盖所有场景;模式选择的开销需考虑。
技术演进定位: Pattern-aware稀疏注意力的开拓者(AAAI 2026)。
可能的后续方向:
论文: SALAD
arXiv: 2601.16515
机构: 清华大学, 腾讯
核心问题: 免训练稀疏度受限于50-70%,而训练型方法计算成本高。
免训练稀疏注意力受限于有限的稀疏度(通常50-70%),突破稀疏度上限需要训练。但训练型方法通常需要大量数据和计算。SALAD提出:能否用极轻量的微调达到极高稀疏度?
前序工作及局限:
与前序工作的本质区别: SALAD用极轻量微调(2000样本)在稀疏注意力旁添加线性分支达到90%稀疏度。
方法框架图
SALAD的核心设计:
(1) 双分支并行:在原始稀疏注意力旁边添加一个轻量线性注意力分支,线性分支负责捕捉被稀疏注意力丢弃的低秩信息。
(2) 输入依赖门控:用可学习门控机制根据输入内容动态调节两个分支的贡献权重。
(3) 极轻量微调:仅新增线性注意力层和门控网络的参数,用2000个视频样本1600步即可完成训练。
实验结果
优势:微调效率极高(2000样本),工程门槛低;门控机制优雅。局限:1.72x加速低于SLA的2.2x;线性注意力的表达能力有限。
技术演进定位: 工程门槛最低的稀疏-线性融合方案。
可能的后续方向:
论文: VMonarch
arXiv: 2601.22275
机构: 南京大学, 腾讯
核心问题: 现有稀疏方法缺乏数学最优性保证。
视频DiT的注意力模式天然具有高度稀疏的时空结构,但现有稀疏方法(Top-K/局部窗口)要么不灵活要么丢失全局信息。VMonarch发现Monarch矩阵——一类具有灵活稀疏性的结构化矩阵——可以优雅地表示这些模式。
前序工作及局限:
与前序工作的本质区别: VMonarch首次将Monarch矩阵引入视频DiT,提供时空注意力的数学最优分解。
方法框架图
VMonarch的核心设计:
(1) 时空Monarch分解:将全注意力矩阵分解为帧内(空间)和帧间(时间)两组Monarch因子,分别捕捉空间和时间相关性。
(2) 交替最小化:通过交替优化两组因子来逼近原始全注意力,配合重计算策略解决收敛不稳定问题。
(3) 在线熵算法:融入FlashAttention的在线计算范式,使Monarch矩阵更新在长序列上高效可行。
实验结果
优势:数学上最优雅的方案;FlashAttention兼容;理论深度最强。局限:交替最小化收敛依赖初始化;实际wall-clock加速(5x)远小于理论FLOPs减少(17.5x),存在实现瓶颈。
技术演进定位: 理论深度最强的结构化注意力方案。
可能的后续方向:
论文: Light Forcing
arXiv: 2602.04789
机构: 多机构合作
核心问题: 现有稀疏注意力面向双向扩散模型,忽视自回归视频生成的因果特性。
现有稀疏注意力主要面向双向扩散模型(如Wan/HunyuanVideo),而自回归视频扩散模型(如GameGen/Oasis/CogVideoX-AR)的因果结构与双向模型截然不同。Light Forcing首次为AR视频扩散定制稀疏注意力方案。
前序工作及局限:
与前序工作的本质区别: Light Forcing首次为AR视频扩散定制Chunk-Aware Growth稀疏注意力。
方法框架图
Light Forcing的核心设计:
(1) AR注意力模式分析:发现AR视频扩散中注意力呈现因果增长的独特模式——新生成帧主要关注临近帧和关键锚帧。
(2) Chunk-Aware Growth机制:将视频序列划分为因果chunk,稀疏注意力范围随chunk增长动态扩展,保持对历史的选择性回顾。
(3) 锚帧保留策略:自动识别并保留关键参考帧的全注意力计算,确保长程一致性。
实验结果
优势:AR视频生成方向的首个稀疏注意力方案,填补空白;Chunk-Aware Growth设计与AR范式天然匹配。局限:AR视频生成模型本身尚未成为主流;方法可推广性受限于AR架构。
技术演进定位: AR视频生成稀疏加速的开创者。
可能的后续方向:
论文: CalibAtt
arXiv: 2603.05503
机构: 以色列理工
核心问题: 免训练方法需要在线动态判断token重要性,开销大。
已有稀疏注意力方法要么需要训练,要么在线动态判断token重要性(开销大)。CalibAtt发现核心洞察:稀疏模式在不同输入上惊人地稳定,可以离线一次校准、在线直接复用。
前序工作及局限:
与前序工作的本质区别: CalibAtt发现稀疏模式跨输入稳定,可离线固定复用。
方法框架图
CalibAtt采用两阶段策略:
(1) 离线校准阶段:在少量参考视频上运行全注意力,统计每一层、每个头、每个扩散时间步的块级稀疏模式和重复模式。
(2) 模式编译:将稳定的稀疏模式编译为优化的注意力操作(类似JIT编译)。
(3) 在线推理:只计算被选中的输入相关连接,以硬件友好方式跳过未选中连接。
实验结果
优势:完全免训练、直接即插即用;离线校准成本低;硬件友好。局限:1.58x加速比在近期方法中不突出;对新架构需重新校准;块级粒度可能丢失细粒度信息。
技术演进定位: 离线校准范式的开创者。
可能的后续方向:
论文: AdaSpa
arXiv: 2502.21079
机构: 字节跳动, 北京大学
核心问题: 动态模式和在线搜索难以兼顾,现有方法牺牲其一。
现有免训练稀疏方法要么用固定模式(无法适应动态变化),要么在线搜索开销大。AdaSpa提出:能否将动态模式与在线精确搜索结合,实现既准确又高效的自适应稀疏注意力?
前序工作及局限:
与前序工作的本质区别: AdaSpa利用FlashAttention的LSE副产品零开销实现在线精确搜索。
方法框架图
AdaSpa的核心设计:
(1) 块化模式(Blockified Pattern):将注意力矩阵划分为层次化block结构,高效表示DiT中的多尺度稀疏性。
(2) LSE缓存搜索:利用FlashAttention计算过程中的LogSumExp副产品作为block重要性信号,零额外开销精确定位关键token区域。
(3) 自适应稀疏决策:根据每步动态计算的重要性信号决定哪些block需要精确计算,实现自适应稀疏。
实验结果
优势:LSE缓存搜索零开销,设计极其优雅;免训练免数据实用性最强。局限:依赖FlashAttention实现,对其他注意力实现不通用。
技术演进定位: 免训练免数据方案的最优解(ICCV 2025)。
可能的后续方向:
Sparse VideoGen: Accelerating Video Diffusion Transformers with Inherent Sparsity | arXiv:2502.01776 | UC Berkeley
关键词: 免训练, 空间/时间稀疏, 3D全注意力, 系列开山作
前序工作问题: 视频DiT的3D全注意力被视为黑盒,其内在稀疏性未被系统性利用。
贡献: 首个系统性利用3D全注意力天然稀疏性的免训练加速框架,在线3%样本分析识别空间/时间稀疏模式。
效果: 在Wan/HunyuanVideo/Mochi上实现高效免训练加速,开创Sparse VideoGen系列。
批判点评: 方向开创性强,但在线分析存在开销;后续SVG2和SVG-EAR在其基础上大幅改进。
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Clustering | arXiv:2505.18875 | UC Berkeley
关键词: 语义聚类, K-Means, 空间/时间稀疏, SVG系列第二代
前序工作问题: SVG的在线稀疏模式分析精度有限,缺乏语义层面的理解。
贡献: 基于K-Means语义聚类的稀疏注意力加速,自动发现空间和时间两种稀疏模式并分别优化。
效果: 在SVG基础上进一步提升加速比,聚类质量直接影响加速效果。
批判点评: 语义聚类方向正确,但K-Means本身有计算开销;已被SVG-EAR的误差感知路由超越。
Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention | arXiv:2602.01801 | 多机构合作
关键词: KV缓存压缩, 自回归, 世界模型, AnnCA
前序工作问题: 自回归视频扩散模型的KV缓存随序列增长线性膨胀,导致长视频生成效率低下。
贡献: 面向自回归视频扩散的时间KV缓存压缩+稀疏注意力联合加速,AnnCA近似近邻注意力。
效果: 长视频流式生成效率大幅提升,支持视频世界模型。
批判点评: KV缓存压缩与稀疏注意力正交互补,联合使用前景广阔;AnnCA的近似精度需关注。
SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer | arXiv:2603.07057 | 多机构合作
关键词: 敏感度建模, 动态规划, 缓存+剪枝, 统一框架
前序工作问题: 缓存和剪枝分别独立设计,缺乏统一最优策略。
贡献: 敏感度导向的缓存+剪枝统一框架,通过动态规划求解最优缓存时间点。
效果: 在DiT-XL/PixArt-α/OpenSora上实现SOTA保真度-加速比权衡。
批判点评: 统一框架设计优雅,动态规划给出理论最优解;但离线分析和迁移成本需考虑。
Less is Enough: Training-Free Video Diffusion Acceleration via Adaptive Caching | arXiv:2507.03065 | 多机构合作
关键词: 免训练, 自适应缓存, 可叠加, 3x加速
前序工作问题: 缓存方法和稀疏注意力通常独立设计,能否叠加加速?
贡献: 无需训练的自适应缓存加速,运行时自适应决策何时复用何时重算,与SVG稀疏注意力可叠加。
效果: SVG+EasyCache在HunyuanVideo上实现3x以上加速。
批判点评: 叠加性是关键价值——稀疏注意力+缓存的联合使用开辟了组合加速新思路。
FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality | ICLR 2026 | 多机构合作
关键词: 免训练缓存, 时间步复用, ICLR 2026, 全自注意力
前序工作问题: 视频扩散不同时间步之间的特征相似性未被充分利用。
贡献: 免训练视频扩散缓存加速,利用全自注意力层的时间步相关性进行特征复用。
效果: 在CogVideoX/Vchitect 2.0/Mochi上实现高质量免训练加速。
批判点评: ICLR 2026接收验证了方法的严谨性;缓存+稀疏注意力的协同将是未来主流。
Fast Video Generation with Sliding Tile Attention | arXiv:2502.04507 | UC Berkeley (Hao AI Lab)
关键词: 滑动窗口, Tile级, 硬件友好, ICML 2025, 免训练
前序工作问题: Token级滑动窗口注意力(SWA)在GPU上硬件利用率低,无法充分利用视频DiT注意力的3D局部性。
贡献: 提出Tile级滑动窗口注意力替代Token级,利用视频DiT注意力在3D时空局部窗口内集中的特性,硬件友好设计。
效果: 注意力加速2.8-17x(vs FlashAttention-2),端到端1.36-3.53x加速,HunyuanVideo延迟从945s降至268s,ICML 2025接收。
批判点评: 与稀疏注意力正交互补——STA处理局部窗口、稀疏方法处理全局选择,二者可叠加;ICML 2025验证了学术质量。
Bidirectional Sparse Attention for Faster Video Diffusion Training | arXiv:2509.01085 | UC Berkeley (Hao AI Lab)
关键词: 训练加速, 双向稀疏, Query+KV稀疏, 动态阈值, 20x FLOPs
前序工作问题: 现有稀疏注意力仅稀疏化KV端,Query端仍完整计算;且使用固定稀疏模式无法适应DiT的动态注意力特性。
贡献: 首个同时动态稀疏化Query和KV对的训练加速方法,通过语义相似性选择Query+动态阈值保留关键KV块。
效果: 训练FLOPs减少20x,注意力训练加速17.79x,生成质量与全注意力持平或超越。
批判点评: 与VSA同属训练加速方向但策略不同——VSA替换注意力机制,BSA在全注意力内部做双向稀疏;二者思路互补。
∇NABLA: Neighborhood Adaptive Block-Level Attention | arXiv:2507.13546 | AI Forever
关键词: 块级注意力, CDF二值化, Flex Attention, 训练+推理, 开源权重
前序工作问题: 自定义CUDA kernel开发门槛高,限制了稀疏注意力方法的社区采用。
贡献: 自适应块级注意力:下采样Q/K后在压缩空间计算注意力,CDF二值化生成稀疏mask,集成PyTorch Flex Attention无需自定义CUDA。
效果: 训练和推理加速最高2.7x,可与STA叠加使用,Wan 2.1预微调权重已开源。
批判点评: 工程门槛最低——无需写CUDA即可使用稀疏注意力;与STA叠加使用的设计体现了模块化组合的趋势。
HunyuanVideo 1.5 Technical Report — Selective and Sliding Tile Attention | arXiv:2511.18870 | 腾讯混元
关键词: SSTA, 选择性注意力, 滑动Tile, 工业级, 消费级GPU, 开源
前序工作问题: 学术界的稀疏注意力方案多在研究模型上验证,缺乏工业级视频生成模型中的端到端集成和大规模验证。
贡献: 提出SSTA(Selective and Sliding Tile Attention):识别并剪除冗余时空KV块,仅对高信息区域执行全注意力,集成于8.3B参数的工业级视频生成模型。
效果: 10秒720p视频端到端1.87x加速(vs FlashAttention-3),消费级GPU可运行,开源模型权重。
批判点评: 稀疏注意力从学术论文走向工业产品的标志性案例——SSTA融合了STA的滑动窗口和选择性剪枝,验证了稀疏注意力在大规模模型中的实用性。
FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters | arXiv:2603.01685 | 香港科技大学(广州)
关键词: 步数蒸馏, 参数剪枝, 联合压缩, 35x加速
前序工作问题: 步数蒸馏和参数剪枝独立应用效果有限,联合优化缺乏系统方案。
贡献: 步数+参数同时压缩的三阶段协同蒸馏管线,将13B模型压缩至30%参数4步推理。
效果: 35x加速HunyuanVideo/WanX,5秒视频数秒内生成。
批判点评: 蒸馏+稀疏注意力理论上可达5-10x无损加速,FastLightGen展示了单路线的极限。
FrameDiT: Frame-level Matrix Attention for Video Diffusion Transformers | arXiv:2603.10200 | 多机构合作
关键词: 帧级注意力, 矩阵注意力, 结构化, 需训练
前序工作问题: Full 3D注意力过于精细(token级),而Local Factorized Attention过于粗略(帧内/帧间分离),缺乏中间粒度设计。
贡献: 帧级矩阵注意力替代token级全注意力,粒度介于Full 3D和Local Factorized之间。
效果: 效率与Local Factorized Attention相当,多个视频生成benchmark达到SOTA。
批判点评: 帧级粒度提供了token级和因子化之间的有趣折中,但需要训练限制了即插即用性。
From Slow Bidirectional to Fast Autoregressive Video Diffusion Models via Diagonal Distillation | arXiv:2603.10200 | Nvidia, Technion
关键词: 对角蒸馏, 277x加速, 自回归, 实时生成
前序工作问题: 双向扩散模型质量高但推理慢,能否将其知识蒸馏到更快的自回归架构?
贡献: 将双向扩散模型蒸馏为自回归生成器,对角蒸馏+隐式光流实现277x加速。
效果: 31 FPS实时生成,极端加速但存在质量损失。
批判点评: 277x加速数字惊人,代表了效率极端追求的方向;但质量损失限制了实际应用。
Awesome-Video-Attention: A Curated Survey of Efficient Video Attention Methods | GitHub (hao-ai-lab) | UC Berkeley (Hao AI Lab)
关键词: 综述, 社区资源, 全技术栈, 持续更新
前序工作问题: 视频注意力加速方法论文爆发式增长,缺乏系统梳理。
贡献: 视频注意力加速方法的系统性综述列表,涵盖稀疏化/量化/缓存等全部技术路线。
效果: 社区标准参考,持续更新,按时间逆序排列。
批判点评: 入门和跟踪该方向的最佳起点;由SVG/VSA团队维护,权威性高。
| 方法 | 方法类别 | 是否需要训练 | 注意力加速 | 端到端加速 | 测试模型 | 质量保持 |
|---|---|---|---|---|---|---|
| SLA | 稀疏+线性融合 | 轻量微调 | 13.7x | 2.2x | Wan 2.1 1.3B | ★★★★★ |
| SLA2 | 稀疏+线性+量化 | 可学习路由 | 18.6x | - | 视频DiT | ★★★★★ |
| SVG-EAR | 稀疏+线性补偿 | 免训练 | - | 1.93x | Wan 2.2 / HunyuanVideo | ★★★★ |
| VSA | 可训练稀疏 | 预训练替换 | 训练+推理 | - | 视频DiT | ★★★★★ |
| Sparse-vDiT | Pattern定制kernel | 免训练 | 显著 | 显著 | HunyuanVideo | ★★★★ |
| SALAD | 稀疏+线性门控 | 2000样本微调 | - | 1.72x | 视频DiT | ★★★★ |
| VMonarch | 结构化Monarch | 轻量微调 | 5x | - | VBench | ★★★★ |
| Light Forcing | AR稀疏 | 免训练 | 显著 | - | AR视频DiT | ★★★★ |
| CalibAtt | 离线校准稀疏 | 免训练 | - | 1.58x | Wan 2.1 14B / Mochi | ★★★★ |
| AdaSpa | 自适应稀疏 | 免训练免数据 | 显著 | 显著 | OpenSora | ★★★★★ |
回顾本专题的 24 篇工作,稀疏注意力在视频生成中已形成三条清晰的技术路线:
三条路线并非互相替代,而是适用于不同的部署场景和资源约束。更值得关注的是,多方法叠加(稀疏注意力 + 缓存 + 蒸馏 + 量化)正在成为主流趋势——EasyCache + SVG 已达 3x+,SLA2 QAT 展示了稀疏 + 量化的协同效果,SSTA 在 HunyuanVideo 1.5 中的工业落地则证明这些技术已具备产品化能力。
开放问题:随着视频 DiT 模型规模持续增长(从 1.3B 到 14B+)、视频分辨率和时长不断提升,稀疏注意力的加速收益是否会继续线性扩展?自回归视频生成范式的兴起又将对稀疏注意力设计带来哪些新约束?这些问题将是下一阶段的核心研究方向。
在视频DiT稀疏注意力的技术路线选择上,你更看好哪条路线?
(A) 免训练方法(CalibAtt/SVG-EAR/AdaSpa)——零成本即插即用但天花板约2x
(B) 轻量微调融合(SLA/SALAD)——2000样本即可达5x+但需适配
(C) 全程可训练替换(VSA)——从训练到推理全程稀疏但需从头训练
此外,稀疏注意力+缓存+蒸馏的三者叠加是否能在消费级GPU上实现实时视频生成?
人工智能炼丹君 整理 | 数据来源:arXiv 2025年5月 — 2026年4月
含 ICLR 2026 Oral × 1, ICLR 2026 × 1, NeurIPS 2025 × 1, AAAI 2026 × 1, ICCV 2025 × 1, ICML 2025 × 1
评论 (0)