标签稀疏注意力下的文章 - 人工智能炼丹君

标签搜索

Jefxiong

累计撰写 65 篇文章
累计收到 8 条评论

搜索到 2 篇与稀疏注意力的结果

2026-05-28
AIGC 每日速读|2026-05-28|北大OSP-Next视频生成跨硬件加速今日 AIGC 论文速览今日共 11 篇 · 视频生成全栈加速 4 篇 · 视频生成新能力 2 篇 · 音频统一生成 2 篇 · 语音合成与编辑 2 篇 · 扩散模型对齐 1 篇重点论文标题列表 OSP-Next：稀疏+量化+RL全栈视频生成1.64x PARE：视频DiT结构剪枝+动态路由 ⚡ Quantized Keys Steal Attention：KV缓存量化的Jensen偏差校正 SVDQuant-GPTQ：W4A4量化Wan2.2-I2V省内存59.3% Dasheng AudioGen：首个文生混合音频场景统一模型今日论文速览 1. OSP-Next：稀疏+量化+RL全栈视频生成1.64x OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning | 北大袁粒组, 华为 | arXiv:2605.28691 关键词：视频生成·稀疏注意力·序列并行·HiF8·北大袁粒组 ⚠️ 前序问题：Diffusion Transformer 在视频生成上已经能出好东西，但 full attention 二次开销死死压住效率。前人方案各做一段（稀疏 / 量化 / 蒸馏），缺一套能同时打通通信、计算、精度的端到端方案——尤其在「多卡序列并行」上和「跨国产硬件」上本文贡献：OSP-Next：把稀疏注意力 + 序列并行 + 量化 + RL 后训练全栈打通的高效 T2V 框架。Skiparse-2D Attention 在空间维做 token-wise + group-wise 稀疏并保留 FlashAttention 兼容；提出 Sparse Sequence Parallelism (SSP) 用一次 All-to-All 切换稀疏模式，相比 Ulysses SP 通信量降低 75%；HiF8 量化支持 8-bit 联合训练 + 稀疏 fine-tune；Mix-GRPO 后训练弥补稀疏模型的质量回退实验效果：VBench 总分 83.73% 超越 Wan2.1 基线；5 秒 720P/768P 设置下，H200 单 GPU 加速 1.64×，8 GPU 加速 1.52×；OSP-Next-HiF8 仅掉 0.4% 分数即可在国产昇腾 Ascend 950PR 上拿到 1.69× 和 2.27× 加速——是少见的同时验证国际/国产硬件的视频生成加速方案批判点评：「稀疏注意力 + 序列并行 + 量化 + RL」四件套全栈打通，每一件单独不算新，但 SSP 把通信量直接打掉 75% 是非常硬的工程数字；跨 H200 + 昇腾的双硬件验证为国产硬件视频生成提供了稀缺的实证。但 Skiparse-2D 是 fixed pattern，对极复杂运动场景的可适配性需要看；Mix-GRPO 与 SSP 联训的稳定性细节披露还可以更多 2. PARE：视频DiT结构剪枝+动态路由 PARE: Pruning and Adaptive Routing for Efficient Video Generation | 港中文 CUHK, 上海 AI Lab, 悉尼大学 | arXiv:2605.27336 关键词：视频 DiT·结构剪枝·动态路由·Wan2.1-14B·上海 AI Lab ⚠️ 前序问题：Video DiT 又宽（block 宽）又深（架构深）又要多步采样，部署成本极高。前人通过压宽/压深/压步数减成本，但都 commit 到固定架构——不能针对单个输入或不同去噪阶段动态调整本文贡献：PARE：把宽度剪枝和深度自适应路由联合做。宽度上观察到 attention head 自然分化为空间 vs 时序角色，设计区分两类的 importance scoring 避免「运动关键的 temporal head」被过早剪掉；深度上训轻量 router 以 denoising timestep + 视觉内容为条件，动态选择每步执行哪些 block——实现「按输入动态计算」而非静态删除。两阶段 progressive pipeline 先用蒸馏修复宽度剪枝的质量损失，再联合优化 student + router 解耦学习目标实验效果：在 Wan2.1-14B 上对 I2V 和 T2V 都大幅降低每步算力且保住 VBench 各维度质量；与 step 蒸馏天然可组合进一步加速——把「静态剪枝」时代翻篇成「动态路由按需算」批判点评：「区分空间/时序 head 重要性 + denoising-step 条件的 block router」两个洞察都直击 Video DiT 的结构性冗余。动态路由实现「按输入按 timestep 算」是 efficient video gen 的下一阶段方向。但 router 本身的训练稳定性、推理时的额外 overhead、以及与 OSP-Next 类静态稀疏组合后的边际收益需要更细 ablation 3. Quantized Keys Steal Attention：KV缓存量化的Jensen偏差校正 Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion | 慕尼黑工大 TUM, Tensordyne | arXiv:2605.26266 关键词：视频扩散·KV cache·INT2 量化·Jensen 偏差·长视频 ⚠️ 前序问题：chunk-wise 自回归视频扩散依赖前序 chunk 的 KV cache 避免重复计算，但视频越长 cache 越大，量化 KV 到低 bit 又会显著掉画质。掉画质的根因是什么？以前没人说清楚本文贡献：首次明确指出根因：softmax 注意力中 exp 的凸性让量化噪声系统性放大「被 cache 的 keys」对注意力的贡献——作者命名为 Jensen bias（量化的 keys 会偷走当前 chunk 的注意力质量）。给出 per-attention-score 的解析修正项，在 expectation 上消除该 bias，只用量化 step size 和 query norm 即可在线算；用二阶 Taylor 近似让额外计算开销可忽略、无需额外显存实验效果：在 MAGI-1 / SkyReels-V2 / HY-WorldPlay 三个长视频模型上 INT2 量化即可恢复大部分掉的质量、接近 BF16；用 50% 更少显存的 INT2 反而能超过 INT4——长视频 KV cache 压缩拿到新的帕累托前沿批判点评：把「量化掉画质」从经验问题改写成「Jensen 偏差」这一可解析的统计现象是真正的科学贡献——一行公式校正、零额外显存就拿到 INT2 ≈ BF16 的质量。这种「找根因 + 闭式解」的工作含金量高。但局限在 chunk-wise AR 视频扩散，对非 AR 的全局扩散 KV 压缩不直接适用；与 SmoothQuant 等激活/权重路线的组合策略还可探索 4. SVDQuant-GPTQ：W4A4量化Wan2.2-I2V省内存59.3% Timestep-Aware SVDQuant-GPTQ for W4A4 Quantization of Wan2.2-I2V | 华中科技大学 HUST | arXiv:2605.27003 关键词：W4A4 量化·Wan2.2·MoE DiT·SVDQuant·华中科大 ⚠️ 前序问题：把大型视频 DiT 推到 W4A4 量化可以省一大块显存，但两道坎卡死：(1) 稀疏的「大幅激活 outlier」；(2) 不同去噪 timestep 的激活分布漂移很大。这两个问题在 Wan2.2-I2V 双专家 MoE DiT（高噪/低噪两个 expert 量化敏感度完全不同）下被进一步放大——单一全局校准策略根本拿不下本文贡献：Timestep-Aware SVDQuant-GPTQ：(1) SVDQuant-based 低秩 outlier 补偿处理激活大幅 outlier；(2) GPTQ 重建感知残差权重量化；(3) timestep-bin-wise 逐层激活 clipping-ratio 搜索，对每个 MoE expert 独立完成。三件套合起来就是「按 expert + 按 timestep」精细化校准的 PTQ 框架实验效果：在 OpenS2V-Eval 上相对 BF16 把峰值 GPU 内存降 59.3%，VBench 平均分仅掉 0.9%，Imaging Quality 仅掉 2.3%——证明「expert + timestep 双感知校准」是 MoE 视频 DiT 量化高保真的必要条件批判点评：把 MoE DiT 量化从「全局校准」拉到「按 expert + 按 timestep」是正确的颗粒度切分——双专家的量化敏感度本来就不同，强行全局必然掉点。59.3% 内存降 + <1% 质量损是漂亮的工业数字。但 PTQ 路线天然依赖 calibration set 质量，长视频/复杂运动的覆盖度需要追踪；与昨天 RT-Lynx 类激活稀疏的组合潜力值得探索 5. Dasheng AudioGen：首个文生混合音频场景统一模型 Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text | 小米, 上海交大 | arXiv:2605.27838 关键词：音频场景生成·multi-view caption·flow matching·小米·DiT ⚠️ 前序问题：音频生成长期被「按域切分」——语音、音乐、音效各有独立模型——做不到从一句描述生成「同时包含人声 + 背景音乐 + 环境音效」的连贯混合音频场景。两大障碍：缺真实混合音频的细粒度监督；声学表示难以同时承载多个并发音频组件本文贡献：Dasheng AudioGen：首个统一生成混合音频场景的端到端框架。两个核心：(i) structured multi-view captions——把复杂声学场景显式解耦成互补的描述视图，让每个音频层都有细粒度控制；(ii) 高维统一「语义-声学」表示作为共享 latent，注入语义先验加速跨模态训练收敛，同时高维特征空间提供解耦并发声音组件的容量。在此基础上一个简单的 flow-matching DiT 就能跑出端到端高质量音频场景生成实验效果：在混合音频类别接近真实录音质量，单类型生成（speech/music/SFX）也与专用模型打平——首次把「视觉生成里图文统一」的思路真正落到音频场景上；配套建立音频场景生成的综合评测 pipeline 批判点评：「structured multi-view captions + 高维语义-声学统一 latent」是非常对症的两个设计——把音频域的「描述粒度」和「表示容量」都拉到能容纳混合场景的层次。flow-matching DiT 的工程极简性也很好。但 multi-view caption 的自动构造成本/质量、高维 latent 增加的 DiT 训练开销，以及与商用 ElevenLabs Sound Effect / Stable Audio 2 的端到端对比都需要更细评测 6. HarmoVid：视频肖像重打光和谐化稳定不闪烁 HarmoVid: Relightful Video Portrait Harmonization | Adobe Research, UNC | arXiv:2605.28811 关键词：视频肖像·relight 和谐化·deflicker·alpha mask·Adobe ⚠️ 前序问题：把人物前景视频和谐到目标背景场景（同步阴影、色调、光照强度——relightful harmonization）的硬伤是：视频域没法采集「同一动作不同光照」的成对标注数据。最直接的方案——「按帧调用图像和谐模型」——会带来严重时序抖动（flicker）本文贡献：HarmoVid 给出整套视频和谐化方案：(i) 全新的 lighting deflickering 模型稳定全局和局部光照 flicker，把「逐帧 image-harmonization」的输出升级成可监督的 paired 视频数据；(ii) 视频扩散模型在 deflickered 真实 + 合成视频上学习；(iii) asymmetric alpha mask conditioning 让模型从真实视频里学到干净的边界实验效果：在时序连贯、自然度、边界干净度、物理合理光照行为多个维度超越此前所有 image-based 和 video-based 和谐化方法；relighting 表现力也保住——人物视频合成 / 后期合成的标准工业链路被显著升级批判点评：用「先 deflicker 再训练」绕开「无成对数据」的死结是非常聪明的——deflicker 把单帧图像和谐输出转化成可用监督，是真正的杠杆点。asymmetric alpha mask 也很实用。但 deflicker 模型本身的失败模式（强光/复杂阴影）会传导到下游；与 Adobe 自家的商业级合成工具的真实对比需要更细评测 7. SmartDirector：多关键帧条件电影级视频叙事控制 SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control | 国内视频生成团队 | arXiv:2605.27891 关键词：电影级视频·多关键帧·叙事节奏·两阶段·Director-Gen/SR ⚠️ 前序问题：视频的「叙事质量」决定感知价值，但现有视频生成方法主要靠 text prompt 或首尾帧这类稀疏 condition——对叙事结构和时序节奏的精确控制非常有限，导出不了真正「有 pacing 的电影感视频」本文贡献：SmartDirector：以多关键帧增强视频生成的叙事能力。支持单镜头、多镜头叙事合成、视频延展三类场景。两阶段：(i) Director-Gen 在低分辨率上以关键帧为条件生成；(ii) Director-SR 利用高分辨率关键帧作为语义锚点把细粒度细节补回来。配套数据管线从电影中精选单镜头/多镜头序列以支撑多关键帧训练实验效果：在多个评测上大幅超越 SOTA，把视频生成从「按 prompt 出 5 秒片段」升级到「按多关键帧出有节奏的多镜头序列」——电影级视频生成的可控性接近真实创作工作流批判点评：「多关键帧 + 两阶段先粗后细」直击「电影级叙事控制」的实际痛点——单 prompt / 首尾帧确实远远不够。两阶段把分辨率 vs 叙事控制解耦是合理设计。但「关键帧」的获取成本（人工/AI辅助）和叙事节奏的可量化评测仍是模糊地带；多镜头切换的时空一致性细节需要更深 ablation 8. LoSATok：1280维语义压缩到128维统一audio LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation | 清华深圳, 面壁智能 | arXiv:2605.27840 关键词：audio tokenizer·128 维·语义瓶颈·清华深圳·面壁 ⚠️ 前序问题：音频 tokenizer 是统一「音频理解」和「音频生成」的根基。理解需要高层语义；生成需要语义 + 声学细节。现有统一 tokenizer 在高维连续 latent 里同时编码——这增加了 DiT 生成端的建模负担本文贡献：LoSATok：观察到 1280 维语义 encoder 特征是可压缩的，引入 Semantic Bottleneck 压到 128 维，并用 time-relation loss 保时序特征一致性；再用「双层级语义监督」同时利用高维/低维语义信号——让 tokenizer 在紧凑 latent 空间里同时承载语义和声学细节实验效果：在 speech / music / 通用 audio 上 SemBo 保住强低维语义容量，LoSATok 与多个语义表示比较 understanding 性能仍有竞争力；在 DiT 端的 speech / music / audio 生成上一致改进——证明「低维 audio 表示也能同时支撑理解与生成」批判点评：把「audio 统一 tokenizer」的维度从 1280 砍到 128 是非常硬的容量压缩——若真的不掉理解还能提升生成，那就解掉了「audio 统一表示卡 DiT」的关键梗。time-relation loss + 双层级语义监督是合理工程。但 128 维下声学细节的极限（音乐复杂混音、长 reverb）需要更细测试；与 Dasheng AudioGen 高维路线的端到端比较是行业级议题 9. CosyEdit2：GRPO语音编辑反哺零样本TTS CosyEdit2: Speech-Editing-Oriented Reinforcement Learning Unlocks Better Zero-Shot TTS | 南开大学 | arXiv:2605.25930 关键词：语音编辑·GRPO·zero-shot TTS·南开大学·post-training ⚠️ 前序问题：语音编辑和 zero-shot TTS 同源于「prompt 驱动的语音生成」，但语音编辑对「与周围未编辑内容的局部声学一致性」要求严苛得多。SFT 让 TTS 模型获得编辑能力的路线被卡在「成对编辑数据不完美 + 优化信号粗粒度」本文贡献：CosyEdit2：建立「先 SFT 初始化 → 再 editing-oriented GRPO 后训练」的两阶段框架。GRPO 阶段在「无目标语音」的数据上做，把语音编辑当作 RL 任务优化，让模型从粗粒度匹配走向精细局部声学一致实验效果：不仅在语音编辑上显著提升，还反哺 zero-shot TTS 能力——揭示「编辑任务 ↔ 合成任务」之间隐藏的相互增益；GRPO 在 audio 域被验证是有效的 post-training 范式批判点评：把 GRPO 引入 audio 域、并用「编辑反哺合成」这个新角度证明两个任务的深层互助，是非常聪明的科学故事。无目标语音的 RL 设计也比依赖成对数据更可扩展。但 GRPO 的 reward 设计细节、跨语种/多说话人鲁棒性、以及对 prosody 细节的影响需要更系统评测 10. PilotTTS：高德200K小时开源TTS竞品级 PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis | 高德 AMAP | arXiv:2605.27258 关键词：TTS·200K 小时·开源·Q-Former·高德 AMAP ⚠️ 前序问题：SOTA TTS 系统通常需要数百万小时专有数据 + 多阶段复杂架构——这对资源受限的研究团队是几乎跨不过去的门槛。开源社区想自己训出竞品级 TTS 一直缺成熟 recipe 本文贡献：PilotTTS：高德 AMAP 用「最小化架构 + 严格数据工程」做出竞品级轻量自回归 TTS。仅用 200K 小时数据 + 全开源工具处理。两大贡献：(i) 可复现的多阶段数据处理 pipeline（质量评估 + 标签标注 + 过滤）；(ii) Q-Former conditioning 紧凑模型架构，通过 cross-sample paired training 解耦说话人身份与说话风格。统一框架支持 zero-shot voice cloning / 11 类情感合成 / 4 类副语言合成 / 14 种中文方言实验效果：在 Seed-TTS Eval 上 test-en WER 1.50%（最低）、test-zh CER 0.87%；两个测试集说话人相似度都最高（0.862 / 0.815）——超越使用大得多数据集训出来的系统。完整 data pipeline + 预训练权重 + 代码全开源 (AMAPVOICE/PilotTTS) 批判点评：「200K 小时 + 开源工具 + 极简架构」做出超越百万小时专有数据系统的 TTS——是非常有信号量的开源胜利，对中小团队意义重大。Q-Former 解耦说话人/风格的设计也是 clean。但 PilotTTS 主打数据工程而非架构创新，复现门槛仍在「数据处理 pipeline 的工程细节」；与昨天 LongCat-Avatar 类「audio + 视频联合」的下一步集成是开放问题 11. LAIR：扩散模型从成对偏好升级到列表对齐 Beyond Pairwise Preferences: Listwise Reward-Aware Alignment for Diffusion Models | 斯坦福, 加州理工 Caltech | arXiv:2605.26491 关键词：diffusion 对齐·listwise preference·advantage-weighted·Stanford·Ermon ⚠️ 前序问题：preference optimization 已成 RLHF 之外对齐 T2I 扩散的高效替代，但现有方法基本都把监督降到 binary pairwise——这在「同 prompt 有多张候选 + 有连续 reward 分数」时严重浪费信息（一个 winner-loser 标签远远没用上 reward 分布）本文贡献：Diffusion LAIR：reward-aware listwise preference optimization。每个 prompt 把候选组的 reward 分数转成中心化 advantage 权重，再优化「advantage-weighted regression」目标——目标定义在 implicit reward（当前模型 vs 固定参考模型的 denoising-loss 改进量）上，配二次惩罚正则隐式 reward 幅度。结果是同时用所有候选而非选 pair，并保持保守。LAIR 目标在 implicit-reward 空间有 bounded closed-form 最优解，把正则强度 → 偏好更新幅度的关系写清楚实验效果：在 SD1.5 / SDXL 上对 T2I 生成 / 组合生成 / 图像编辑 benchmark 都超越 strong pairwise preference optimization baseline；为 diffusion 对齐提供「更接近 RLHF reward 信息密度但不需在线 RL」的中间路线批判点评：把 DPO 类 pairwise 升级到 listwise + 给出 closed-form 最优解的清晰表述是教科书级的方法工作——既保留 offline 偏好优化的稳定性，又用上了 reward score 的全部信息。但 listwise 数据采集成本高于 pairwise（要 N 张同 prompt 候选 + reward 分），实际落地的数据可得性是隐藏成本；与 in-context 在线 RL（GRPO 类）的端到端比较略浅趋势观察视频生成进入「全栈加速」时代：稀疏 + 量化 + 并行 + 路由 + RL 多管齐下 — OSP-Next 把稀疏注意力 + Sparse Sequence Parallelism（通信 -75%）+ HiF8 量化 + Mix-GRPO 一锅端，跨 H200 / 昇腾双硬件分别 1.64× / 2.27× 加速；PARE 联合宽度剪枝 + 动态深度路由，在 Wan2.1-14B 上按输入按 timestep 动态算；SVDQuant-GPTQ 把 Wan2.2 双专家 MoE DiT 推到 W4A4 显存降 59.3%——视频生成的工业部署正在被「全栈加速」改写长视频 KV cache 压缩出现「找根因 + 闭式解」类突破 — Quantized Keys Steal Attention 首次把「量化 KV 掉画质」从经验现象写成 Jensen bias（exp 凸性放大 cache key 贡献）的可解析统计现象，一行公式校正零额外显存，让 MAGI-1 / SkyReels-V2 / HY-WorldPlay 在 INT2 上接近 BF16——把 chunk-wise AR 长视频的 KV 压缩从「玄学调参」推到「有理论的工程」音频生成统一化：从「按域切分」走向「一句描述出混合场景」 — Dasheng AudioGen 是首个能从一句描述同时生成 speech + music + SFX 混合连贯场景的统一模型，关键是 structured multi-view captions + 高维语义-声学统一 latent；LoSATok 反过来把 1280 维语义压到 128 维统一 tokenizer 反哺 DiT 生成；CosyEdit2 在 audio 域用 GRPO 把「编辑」反哺「TTS」——audio 正在重走视觉「统一模型」的同一条路视频生成的「叙事控制」与「视频后期」继续拓宽到工业链路 — SmartDirector 把视频生成从「按 prompt 出 5 秒片段」升级到「多关键帧 + 两阶段先粗后细」做电影级叙事节奏控制；HarmoVid 用 deflicker 模型破解「视频和谐化无成对数据」的死结，把视频肖像 relight 和谐化做到工业级稳定——视频生成的可控性从「内容」深入到「节奏」和「后期合成」开源 TTS / 对齐方法补齐 audio + diffusion 的「最后一公里」 — 高德 PilotTTS 用 200K 小时 + 开源工具 + Q-Former 极简架构做出超越百万小时专有系统的开源 TTS（Seed-TTS Eval 第一）；Diffusion LAIR 把 T2I 对齐从 pairwise 升级到 listwise，给出 implicit-reward 的 closed-form 最优解——开源社区在 audio 合成 + diffusion 对齐这两个长期被闭源霸占的方向同时迈出了「竞品级 + 理论级」的双台阶人工智能炼丹君整理 | 2026-05-28
- 2026年05月28日
- 1 阅读
- 0 评论
- 0 点赞
2026-05-21
AIGC 每日速读|2026-05-21|智能编辑成统一模型通用任务Uni-Edit 今日 AIGC 论文速览今日共 13 篇 · 统一多模态与图像编辑 2 篇 · 视频生成与编辑 5 篇 · 高效推理与稀疏注意力 3 篇 · 安全与可控生成 2 篇 · 图像复原与评测 2 篇重点论文标题列表 Uni-Edit：智能编辑成为统一模型唯一训练任务 FullFlow：只训LoRA把T2I升级成双向多模态 ⚡ DVG：时空联合自适应HunyuanVideo提速7倍 BA-Att：块预降采样稀疏注意力提速7倍 FlowLong：滑窗加流形约束推理期出长视频今日论文速览 1. Uni-Edit：智能编辑成为统一模型唯一训练任务 Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning | CUHK MMLab | arXiv:2605.21487 关键词：UMM 统一多模态·智能图像编辑·通用任务·BAGEL·Janus-Pro ⚠️ 前序问题：统一多模态模型（UMM，理解+生成+编辑三件事一起做）当前主要靠混合多任务训练。但任务之间天生冲突，逼出了复杂的多阶段 pipeline、海量数据混合和各种平衡 trick——结果只是性能折中而非真正互相增强本文贡献：提出 Uni-Edit：智能图像编辑作为 UMM tuning 的「第一个通用任务」。一个任务、一个训练阶段、一个数据集就能同时提升理解/生成/编辑三种能力。为此构建首个自动化可扩展智能编辑数据合成 pipeline：把多样 VQA 数据转化为带嵌入问题和嵌套逻辑的复杂编辑指令，得到 Uni-Edit-148k 数据集（reasoning-intensive 指令 + 高质量编辑图像）实验效果：BAGEL 与 Janus-Pro 上仅用 Uni-Edit 单任务训练即获得三种能力的全面增强，无需任何辅助操作；模型/数据/代码已开源在 HuggingFace 和 GitHub 批判点评：「编辑作为通用任务」的洞察是范式级——编辑天生需要「理解 + 生成」两件事，这是其作为通用任务的根本理由；但 Uni-Edit-148k 是 VQA 数据合成的，复杂场景下指令质量上限仍受 VQA 数据集决定；BAGEL/Janus-Pro 之外能否泛化到更多 UMM（OmniGen/UniGen）需要后续验证 2. FullFlow：只训LoRA把T2I升级成双向多模态 FullFlow: Upgrading Text-to-Image Flow Matching Models for Bidirectional Vision-Language Generation | ETH Zürich, Google Zurich | arXiv:2605.20316 关键词：统一多模态·LoRA 升级·Rectified Flow·双向生成·参数高效 ⚠️ 前序问题：现代 T2I 扩散模型有强视觉先验，但只暴露在单向 text→image 生成。从 T2I 衍生的统一视觉语言模型要么靠大规模联合预训练，要么大幅重训文本通路——两者都浪费了 T2I backbone 已经学到的强图像先验本文贡献：提出 FullFlow 参数高效配方：只训 LoRA 适配器和轻量 text head 就把预训练的 rectified-flow T2I 模型升级成双向 vision-language 生成器。图像保持原生连续 flow，文本走离散 insertion 过程；图像/文本独立 timestep 让推理变成「二维生成空间」中的轨迹选择，单 backbone 同时支持 text→image / image→text / 联合采样 / partial-text 预测实验效果：在 SD3 上同等可训参数和 LoRA rank 下，T2I FID 62.7 → 31.6，I2T CIDEr 2.0 → 99.4（远超之前 SOTA Dual Diffusion）；峰值 VRAM 从 ~84GB 降到 ~38GB，吞吐 8×（双 RTX A5000 训 24h，仅训 ~5% backbone 参数）；同样配方迁移到 FLUX.1-dev 并支持 partial-text 做下游 VQA 批判点评：5% 参数开销实现双向多模态是非常高 ROI 的工程贡献——把扩散视觉先验「升级 vs 重建」拉到了正确选择；但 image→text CIDEr 99.4 vs Dual Diffusion 2.0 的对比量级悬殊，可能反映 baseline 设置问题；与原生统一模型（BAGEL/Janus）的端到端能力对比缺失 3. DVG：时空联合自适应HunyuanVideo提速7倍 Dynamic Video Generation: Shaping Video Generation Across Time and Space | 上海交大, 华南理工, 清华大学 | arXiv:2605.21042 关键词：视频扩散加速·时空联合·渐进分辨率·HunyuanVideo·近无损 ⚠️ 前序问题：视频扩散每步要处理大量 token，迭代去噪极昂贵。最近渐进分辨率采样在早期阶段降 latent 分辨率取得加速，但 scale 到视频上仍困难——时序维度引入跨视频差异巨大的时空需求，只压一个维度要么加速有限要么质量退化本文贡献：提出 DVG（Dynamic Video Generation）框架：跨时间和空间联合分配计算，自动选择内容感知（content-aware）的加速策略，无需手工调参或重训。通过学习每个视频的最佳时空降采样模式，实现近无损加速实验效果：HunyuanVideo / HunyuanVideo-1.5 上达到 7× 加速；与蒸馏组合可达 18× 加速；近无损跨模型跨任务，可作为大规模高效视频生成系统的关键组件——代码开源批判点评：把渐进分辨率从空间扩到时空联合是合理的下一步，自动 content-aware 策略避免了手工 schedule；但加速倍数高度依赖底模容量与内容多样性，对极端运动场景的 robustness 论文未充分披露；7×→18× 的复合是否保留各自的画质底线需更细粒度评测 4. BA-Att：块预降采样稀疏注意力提速7倍 Efficient Long-Context Modeling in Diffusion Language Models via Block Approximate Sparse Attention | 香港科大, 港大, 浙大, 港中文 | arXiv:2605.19726 关键词：扩散语言模型·稀疏注意力·块降采样·FlashAttention·长上下文 ⚠️ 前序问题：扩散语言模型（DLM）能做全局连贯、双向、可控文本生成，但 scale 到超长序列仍昂贵。现有 block-sparse attention 用固定采样模式（尾部、反斜对角条带）选块——这种 prior-driven 采样会漏关键 token、分布偏移下不稳定本文贡献：提出 BA-Att 框架：block-wise 预降采样操作在压缩空间识别 informative 区域，避免依赖脆弱的位置先验。理论上定义 oracle post-downsample attention map，形式化前 vs 后降采样方案的近似误差；引入轻量 norm-sorting 模块和协方差补偿修正（用对角 QK 方差近似完整协方差），降复杂度实验效果：比 FlashAttention 加速最高 6.95×；50% 稀疏度下保持接近 full-attention 性能，跨语言模型/多模态语言模型/视频生成模型一致——证明高效率和强泛化批判点评：把 sparse attention 的「选块」从 prior-based 升级到 learned downsampled space 是非常正确的方向，6.95× 加速比 FlashAttention 还快是亮眼的工程数字；但 50% 稀疏率下「接近 full」的具体差距需更精细评测；对极长上下文（1M+）的渐近行为仅理论保证而无实测 5. FlowLong：滑窗加流形约束推理期出长视频 FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching | KAIST, Amazon | arXiv:2605.20910 关键词：长视频生成·推理期方法·Tweedie matching·滑窗·流形约束 ⚠️ 前序问题：把视频扩散模型生成时长扩到长序列一直没解决：双向模型扩展紧绑架构且长距退化严重，自回归模型有 exposure bias 累积漂移并产生重复运动。现有 training-free 方案没有同时跨这两条路线本文贡献：提出 architecture-agnostic 推理期长视频生成方法：滑动重叠窗口生成长视频，相邻窗口预测的 clean sample 通过 Tweedie matching 在重叠区强制流形约束 + 时序一致；high-noise 阶段用 stochastic early-phase sampling，每次 Tweedie matching 校正后注入新噪声同步窗口轨迹，再切到 deterministic ODE sampling 保留细节实验效果：可生成数倍于原生窗口长度的视频，时序一致性和视觉质量超越 training-free 与自回归两类基线；同一思路无微调即可扩展到音视频联合生成、文生 3DGS——证明这套方法是通用的批判点评：Tweedie matching 在窗口边界做修正是 elegant 的解法，几乎是「无需训练」的最简扩展；但滑窗推理时延比单 pass 显著增加，长视频对内存的累积压力不算小；与原生因果模型（如 Causal Forcing++/Mutual Forcing）相比，缺少同等长度下的直接对比 6. StreamGVE：少步流式生成做训练免视频编辑 StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation | UBC ECE | arXiv:2605.21466 关键词：视频编辑·训练免微调·少步流式生成·noise-to-data·双分支 ⚠️ 前序问题：视频编辑方法可行但要花很多昂贵迭代且编辑结果质量勉强。作者把症结归因到「data-to-data」范式——它和现代生成模型（noise-to-data）天生不兼容，绕远路反而拉低了编辑质量本文贡献：从 noise-to-data 视角重做视频编辑：基于预训练的流式生成模型构建 StreamGVE，保留 few-step 采样并无缝注入源视频条件；引入双分支快速采样（self-attention bridge + cross-attention grounding/boosting）兼顾采样和条件；提出 source-oriented guidance 提目标质量，再加 visual prompting 增强编辑灵活性实验效果：在多种视频编辑任务上一致超越现有方法，即使在 few-step 设置下也能以最少时间代价完成；方法对不同底模具有鲁棒性和泛化能力批判点评：把视频编辑「从 data-to-data 转向 noise-to-data」是个范式级洞察，能直接复用流式生成模型的少步能力——很省工；但在风格迁移、物体替换等具体编辑任务上的优势是否一致需要更细分对比；source-oriented guidance 的强度调参成本未明 7. FlowErase-RL：首个GRPO范式的概念擦除框架 FlowErase-RL: Rethinking Concept Erasure as Reward Optimization in Flow Matching Models | 哈工大深圳, 清华深圳, 吉林大学, 鹏城实验室, 清华大学 | arXiv:2605.19739 关键词：Flow Matching·概念擦除·GRPO·安全生成·双路径奖励 ⚠️ 前序问题：Flow Matching 文生图模型质量飞涨同时安全风险也在加剧，要擦除有害/不想要的概念。现有方案要么是推理期干预（效果有限），要么靠 SFT（依赖精对齐数据 + 多概念扩展性差）——擦除问题一直缺少更优范式本文贡献：首次把概念擦除重新表述为 reward optimization 问题，提出基于 GRPO 的 FlowErase-RL：(1) 双路径动态奖励——CE（Concept Erasure）奖励抑制目标概念，NS（Non-target Space）奖励保住生成质量；(2) 性能驱动的自适应切换策略，无需显式监督就能稳定训练；通用支持裸露/物体/艺术风格三类擦除实验效果：裸露/物体/艺术风格三类擦除均达 SOTA，图像质量与语义对齐保持很好；对抗攻击鲁棒性强，多概念场景扩展性好——开辟了 Flow Matching 安全可控生成的新范式批判点评：把擦除从 SFT 转向 RL 是聪明的——擦除本质是分布偏移而非分类，RL 的奖励更贴合；但 GRPO 训练成本不低，CE/NS 双奖励的权重边界对效果影响多大未深入消融；擦除概念之间的相互干扰（擦了概念 A 影响概念 B 的生成）这一长尾问题未充分讨论 8. CPC-VAR：首次给VAR模型做持续多概念个性化 CPC-VAR: Continual Personalized and Compositional Generation in Visual Autoregressive Models | 哈工大深圳, 清华深圳国际研究生院, 鹏城实验室, 华南理工 | arXiv:2605.19750 关键词：持续学习·VAR 个性化·概念神经元·多概念合成·解纠缠 ⚠️ 前序问题：Visual Autoregressive（VAR）做文生图效率高，但现有 VAR 个性化只能静态训单概念——序列学新概念时旧概念会被灾难性遗忘，多概念合成又会出现特征纠缠和属性不一致。这是 VAR 个性化生成的两个老大难本文贡献：首次系统研究 VAR 持续个性化生成，提出统一框架。两个核心组件：(1) GCNS（Gradient-based Concept Neuron Selection），找到每个概念相关的神经元，只约束跨任务冲突参数，不扩展模型也能抗遗忘；(2) 上下文感知组合策略：多分支特征建模 + 空间条件引导的局部 cross-attention 融合，做精确解纠缠的多概念合成实验效果：长序列持续个性化场景下显著领先现有 baseline，多概念图像合成上也优于现有方法，证明 VAR 完全有能力做可扩展可控的个性化生成批判点评：VAR 个性化第一次被系统化研究是好事，神经元级别的 GCNS 设计也比经典扩散模型路线（DreamBooth/LoRA）更经济；但实验是否覆盖到 10+ 概念的真实长尾、跨概念组合的失败模式分析略浅，VAR 底模本身的天花板（vs 扩散模型）没有正面比较 9. DyMoS：一个标量旋钮控 I2V 运动幅度 Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models | 延世大学 Yonsei, GIST, Adobe Research | arXiv:2605.19398 关键词：I2V·运动控制·注意力 rebalance·训练免微调·DyMoS ⚠️ 前序问题：I2V（image-to-video）相比 T2V 生成的视频普遍过于静态。前人方案靠削弱或修改图像条件来增加运动，但要么需要额外训练，要么牺牲了对参考图像的保真度——「动起来 vs 像参考图」是个长期 tradeoff 本文贡献：识别出「reference-frame dominance」是动作抑制的核心机制：非参考帧对参考帧 key token 分配过多 self-attention，导致参考信息被过度跨时传播、压制了帧间动态。提出 DyMoS（Dynamic Motion Slider）：训练免微调、模型无关，初始去噪步 rebalance 生成帧到参考帧的注意力路径，输入图和模型权重都不动，只引入一个标量参数连续控制运动强度实验效果：多个 SOTA I2V backbone 上一致提升运动动态，同时保持视觉质量和对参考图的保真度；提供 user 一个可调的运动旋钮批判点评：把「动起来 vs 像参考图」从冲突变成可调旋钮是非常实用的工程贡献；但 attention rebalance 的具体公式对不同架构可能需重新调，论文给出的 generality 主要在 SD 系列底模；标量旋钮是否能控制不同方向的运动（横向 vs 纵向）需要更细粒度评测 10. MSAVBench：首个多镜头音视频生成评测基准 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation | 复旦大学, 港大, 阿里通义实验室, 浙大, 北大 | arXiv:2605.20183 关键词：多镜头音视频·评测基准·导演级控制·自适应分镜·MSAVBench ⚠️ 前序问题：视频生成正从单镜头扩展到复杂多镜头音视频（MSAV）叙事，但评测仍是基础性挑战——现有 benchmark 范围有限、数据多样性不足、评测流水线僵化，无法系统可靠地评估现代 MSAV 模型本文贡献：推出 MSAVBench 首个面向多镜头音视频生成的综合评测基准 + 自适应混合评测框架。覆盖视频/音频/镜头/参考四个维度，多种任务设置，最多 15 个镜头，挑战性的非真实场景。评测框架的鲁棒性来自三件事：分镜分割的自适应 self-correction、主观指标的实例级 rubric、复杂判断的工具溯源证据抽取实验效果：与人类判断的 Spearman 秩相关达 91.5%，对齐度极高；系统评测 19 个 SOTA 闭源/开源模型显示：当前系统在导演级控制和细粒度音视频同步上仍有困难，模块化/agentic 生成 pipeline 是缩小开源-闭源差距的有前途路径；benchmark 数据和评测代码将开源批判点评：把音视频生成评测从「单镜头质量」推进到「多镜头叙事 + 导演级控制」是必要的下一步；91.5% Spearman 与人类对齐很高，自适应分镜 self-correction 是工程亮点；但 15 个镜头作为基准上限对真正的长视频（>5 分钟、几十个镜头）覆盖度有限；非真实场景的标注成本与一致性如何控制仍是开放问题 11. CogOmniControl：专用CogVLM认知创意意图引导生成 CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition | 澳门大学 SKL-IOTSC, 腾讯 Online-Video BU | arXiv:2605.19995 关键词：可控视频生成·专业 VLM·创意意图认知·闭环 harness·in-context ⚠️ 前序问题：视频扩散模型对 abstract / 稀疏 / 复杂条件依然脆弱——专业制作工作流（分镜草图、黏土渲染等）下表现差。现有方案要么用 adapter 注入条件，要么把通用 VLM 耦合到扩散 backbone——能力鸿沟仍在，难以输出对齐用户创意意图的视频本文贡献：提出 CogOmniControl 推理驱动框架：把可控视频生成因式分解为「创意意图认知」+「生成」。专门用真实动漫制作数据训了一个专业版 CogVLM，比通用 VLM 更准确地从稀疏抽象条件中识别用户创意意图，转译成密集 reasoning 输出；CogOmniDiT 通过 in-context generation 统一多种条件，并用 RL 对齐到 CogVLM reasoning 输出。进一步利用 CogVLM 做评测与 Best-of-N 选择，整个框架是闭环 harness 架构。同时发布 CogReasonBench / CogControlBench 来自专业工作流的真实创意意图数据实验效果：两个 benchmark 上一致超越现有开源模型，在分镜草图、黏土渲染等专业条件下尤其明显——证明专业 VLM 介入的认知能力对可控生成是有效的批判点评：专业 VLM 当「创意意图认知器」是个新颖思路，引入 reasoning 缓解条件稀疏问题——但训练专业版 VLM 的数据规模有限，跨垂直域（动漫→真人/工业）泛化未验证；闭环 harness 架构推理时延偏高，落地工业流水线存在挑战 12. DiSI：单模型连续滑动失真感知权衡 Disentangling Generation and Regression in Stochastic Interpolants for Controllable Image Restoration | 同济大学, 复旦大学 | arXiv:2605.21381 关键词：图像复原·Stochastic Interpolant·生成-回归解耦·失真感知权衡·像素空间 ⚠️ 前序问题：图像复原（IR）领域生成式（Diffusion/Flow Matching）擅长合成真实纹理但慢且像素保真度差；经典回归式方法单步高效像素准确——两条路线长期不能兼得本文贡献：提出 DiSI 统一框架：把底层 Stochastic Interpolant 过程显式解耦为独立的生成分量和回归分量。这种解耦让模型在「纯回归 → 全生成」之间连续可控过渡。技术上提供两条具体采样轨迹和统一 sampler 支持任意轨迹的少步推理；网络是像素空间的双分支 U-Net 风格 transformer（专用分支增强条件引导同时保高吞吐）实验效果：在多种 IR 任务上以高效率取得有竞争力的结果；独有特性：单一模型推理期就能控制失真-感知 tradeoff（distortion-perception trade-off），不再需要训多个模型批判点评：把 SI 过程拆成生成+回归两个可独立调用的分量，在理论上很优雅，给「失真-感知」连续控制提供了第一种统一手段；但实际 IR 任务中如何选择最佳轨迹（用户需指定 tradeoff？）的 UI/控制接口论文未深入讨论；与最新 OSEDiff/PASD 等方法的端到端对比有所欠缺 13. ABSS：初始几步注意力筛 seed 提画质 Boosting Text-to-Image Diffusion Models via Core Token Attention-Based Seed Selection | Brandeis University | arXiv:2605.19532 关键词：文生图·Seed Selection·Cross-Attention·训练免微调·SD ⚠️ 前序问题：文生图扩散模型的输出对随机 seed 极度敏感——不同 seed 同 prompt 画质和文图对齐差异巨大。但「该用哪个 seed」一直靠盲选，缺乏系统的预选机制本文贡献：观察到一个关键现象：在前几步去噪过程中，对 prompt 中 core token（content-bearing words）的 cross-attention dynamic 强烈预测最终生成质量。基于此提出 ABSS（Attention-Based Seed Selection），训练免微调即插即用：候选 seed 跑前几步，用对 core token 的 cross-attention 打分排序，只保留 top-k 完成完整生成，不需要固定阈值实验效果：三个 benchmark 上 Stable Diffusion 各变体的文图对齐和视觉质量一致提升，人工偏好与对齐指标都有改善；可作为现有 seed 优化 pipeline 的轻量预选附加组件叠加额外收益批判点评：很经济的工程发现：把 seed 筛选问题转换为前几步 attention 信号读取，几乎没有计算开销；但这种基于 attention 的代理指标在跨架构（DiT/MMDiT）的可迁移性需要进一步验证；core token 的提取依赖 prompt parsing 的鲁棒性趋势观察「编辑」开始成为统一多模态模型的核心训练任务 — Uni-Edit 把智能编辑提为 UMM 单一通用训练任务，BAGEL/Janus-Pro 上一个数据集就能同时提理解/生成/编辑——「编辑作为通用任务」的认知正在替代「混合多任务训练」的范式。FullFlow 用同样的精简思路（只训 5% 参数）把 T2I 升级成双向多模态，从「重训」走向「升级」视频生成加速进入「时空联合 + 稀疏注意力」阶段 — DVG 把渐进分辨率从单空间扩到时空联合，HunyuanVideo 上 7× 加速 + 蒸馏达 18×；BA-Att 用块预降采样稀疏注意力比 FlashAttention 还快 6.95×。视频扩散下一阶段的加速重心从单维度优化转向「时空 + 稀疏」组合拳长视频生成从训练扩展走向「推理期方法」 — FlowLong 用 Tweedie matching 滑窗 training-free 把视频时长扩到数倍——这条 inference-time 路线和 Mutual Forcing/Causal Forcing++ 的训练侧路线形成互补，意味着长视频不一定要重新训模型 I2V 运动控制和文生图 seed 选择都被「单一标量旋钮 + Attention 信号」攻破 — DyMoS 用一个标量参数控 I2V 运动幅度（attention rebalance）；ABSS 用初始几步 cross-attention 信号筛 seed——共同点是把「需要训练才能解决」的问题，转化为「读取已有 attention 信号」的免训练方案概念擦除从 SFT 范式跨入 RL 范式 — FlowErase-RL 首次用 GRPO 做 Flow Matching 概念擦除，CE+NS 双路径动态奖励替代精对齐 SFT 数据——证明在 Flow Matching 时代，「擦除」本质上更适合用 RL 的分布偏移视角而非分类监督视角人工智能炼丹君整理 | 2026-05-21
- 2026年05月21日
- 3 阅读
- 0 评论
- 0 点赞

粤ICP备2021042327号