标签搜索

Jefxiong

累计撰写 68 篇文章
累计收到 8 条评论

首页
/
AIGC
/
正文

AIGC

AIGC 每日速读|2026-05-21|智能编辑成统一模型通用任务Uni-Edit

人工智能炼丹君

2026-05-21 / 0 评论 / 6 阅读 / 正在检测是否收录...

05/21

今日 AIGC 论文速览

今日共 13 篇 · 统一多模态与图像编辑 2 篇 · 视频生成与编辑 5 篇 · 高效推理与稀疏注意力 3 篇 · 安全与可控生成 2 篇 · 图像复原与评测 2 篇

重点论文标题列表

Uni-Edit：智能编辑成为统一模型唯一训练任务
FullFlow：只训LoRA把T2I升级成双向多模态
⚡ DVG：时空联合自适应HunyuanVideo提速7倍
BA-Att：块预降采样稀疏注意力提速7倍
FlowLong：滑窗加流形约束推理期出长视频

今日论文速览

1. Uni-Edit：智能编辑成为统一模型唯一训练任务

Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning | CUHK MMLab | arXiv:2605.21487

关键词：UMM 统一多模态·智能图像编辑·通用任务·BAGEL·Janus-Pro

⚠️ 前序问题：统一多模态模型（UMM，理解+生成+编辑三件事一起做）当前主要靠混合多任务训练。但任务之间天生冲突，逼出了复杂的多阶段 pipeline、海量数据混合和各种平衡 trick——结果只是性能折中而非真正互相增强
本文贡献：提出 Uni-Edit：智能图像编辑作为 UMM tuning 的「第一个通用任务」。一个任务、一个训练阶段、一个数据集就能同时提升理解/生成/编辑三种能力。为此构建首个自动化可扩展智能编辑数据合成 pipeline：把多样 VQA 数据转化为带嵌入问题和嵌套逻辑的复杂编辑指令，得到 Uni-Edit-148k 数据集（reasoning-intensive 指令 + 高质量编辑图像）
实验效果：BAGEL 与 Janus-Pro 上仅用 Uni-Edit 单任务训练即获得三种能力的全面增强，无需任何辅助操作；模型/数据/代码已开源在 HuggingFace 和 GitHub
批判点评：「编辑作为通用任务」的洞察是范式级——编辑天生需要「理解 + 生成」两件事，这是其作为通用任务的根本理由；但 Uni-Edit-148k 是 VQA 数据合成的，复杂场景下指令质量上限仍受 VQA 数据集决定；BAGEL/Janus-Pro 之外能否泛化到更多 UMM（OmniGen/UniGen）需要后续验证

2. FullFlow：只训LoRA把T2I升级成双向多模态

FullFlow: Upgrading Text-to-Image Flow Matching Models for Bidirectional Vision-Language Generation | ETH Zürich, Google Zurich | arXiv:2605.20316

关键词：统一多模态·LoRA 升级·Rectified Flow·双向生成·参数高效

⚠️ 前序问题：现代 T2I 扩散模型有强视觉先验，但只暴露在单向 text→image 生成。从 T2I 衍生的统一视觉语言模型要么靠大规模联合预训练，要么大幅重训文本通路——两者都浪费了 T2I backbone 已经学到的强图像先验
本文贡献：提出 FullFlow 参数高效配方：只训 LoRA 适配器和轻量 text head 就把预训练的 rectified-flow T2I 模型升级成双向 vision-language 生成器。图像保持原生连续 flow，文本走离散 insertion 过程；图像/文本独立 timestep 让推理变成「二维生成空间」中的轨迹选择，单 backbone 同时支持 text→image / image→text / 联合采样 / partial-text 预测
实验效果：在 SD3 上同等可训参数和 LoRA rank 下，T2I FID 62.7 → 31.6，I2T CIDEr 2.0 → 99.4（远超之前 SOTA Dual Diffusion）；峰值 VRAM 从 ~84GB 降到 ~38GB，吞吐 8×（双 RTX A5000 训 24h，仅训 ~5% backbone 参数）；同样配方迁移到 FLUX.1-dev 并支持 partial-text 做下游 VQA
批判点评：5% 参数开销实现双向多模态是非常高 ROI 的工程贡献——把扩散视觉先验「升级 vs 重建」拉到了正确选择；但 image→text CIDEr 99.4 vs Dual Diffusion 2.0 的对比量级悬殊，可能反映 baseline 设置问题；与原生统一模型（BAGEL/Janus）的端到端能力对比缺失

3. DVG：时空联合自适应HunyuanVideo提速7倍

Dynamic Video Generation: Shaping Video Generation Across Time and Space | 上海交大, 华南理工, 清华大学 | arXiv:2605.21042

关键词：视频扩散加速·时空联合·渐进分辨率·HunyuanVideo·近无损

⚠️ 前序问题：视频扩散每步要处理大量 token，迭代去噪极昂贵。最近渐进分辨率采样在早期阶段降 latent 分辨率取得加速，但 scale 到视频上仍困难——时序维度引入跨视频差异巨大的时空需求，只压一个维度要么加速有限要么质量退化
本文贡献：提出 DVG（Dynamic Video Generation）框架：跨时间和空间联合分配计算，自动选择内容感知（content-aware）的加速策略，无需手工调参或重训。通过学习每个视频的最佳时空降采样模式，实现近无损加速
实验效果：HunyuanVideo / HunyuanVideo-1.5 上达到 7× 加速；与蒸馏组合可达 18× 加速；近无损跨模型跨任务，可作为大规模高效视频生成系统的关键组件——代码开源
批判点评：把渐进分辨率从空间扩到时空联合是合理的下一步，自动 content-aware 策略避免了手工 schedule；但加速倍数高度依赖底模容量与内容多样性，对极端运动场景的 robustness 论文未充分披露；7×→18× 的复合是否保留各自的画质底线需更细粒度评测

4. BA-Att：块预降采样稀疏注意力提速7倍

Efficient Long-Context Modeling in Diffusion Language Models via Block Approximate Sparse Attention | 香港科大, 港大, 浙大, 港中文 | arXiv:2605.19726

关键词：扩散语言模型·稀疏注意力·块降采样·FlashAttention·长上下文

⚠️ 前序问题：扩散语言模型（DLM）能做全局连贯、双向、可控文本生成，但 scale 到超长序列仍昂贵。现有 block-sparse attention 用固定采样模式（尾部、反斜对角条带）选块——这种 prior-driven 采样会漏关键 token、分布偏移下不稳定
本文贡献：提出 BA-Att 框架：block-wise 预降采样操作在压缩空间识别 informative 区域，避免依赖脆弱的位置先验。理论上定义 oracle post-downsample attention map，形式化前 vs 后降采样方案的近似误差；引入轻量 norm-sorting 模块和协方差补偿修正（用对角 QK 方差近似完整协方差），降复杂度
实验效果：比 FlashAttention 加速最高 6.95×；50% 稀疏度下保持接近 full-attention 性能，跨语言模型/多模态语言模型/视频生成模型一致——证明高效率和强泛化
批判点评：把 sparse attention 的「选块」从 prior-based 升级到 learned downsampled space 是非常正确的方向，6.95× 加速比 FlashAttention 还快是亮眼的工程数字；但 50% 稀疏率下「接近 full」的具体差距需更精细评测；对极长上下文（1M+）的渐近行为仅理论保证而无实测

5. FlowLong：滑窗加流形约束推理期出长视频

FlowLong: Inference-time Long Video Generation via Manifold-constrained Tweedie Matching | KAIST, Amazon | arXiv:2605.20910

关键词：长视频生成·推理期方法·Tweedie matching·滑窗·流形约束

⚠️ 前序问题：把视频扩散模型生成时长扩到长序列一直没解决：双向模型扩展紧绑架构且长距退化严重，自回归模型有 exposure bias 累积漂移并产生重复运动。现有 training-free 方案没有同时跨这两条路线
本文贡献：提出 architecture-agnostic 推理期长视频生成方法：滑动重叠窗口生成长视频，相邻窗口预测的 clean sample 通过 Tweedie matching 在重叠区强制流形约束 + 时序一致；high-noise 阶段用 stochastic early-phase sampling，每次 Tweedie matching 校正后注入新噪声同步窗口轨迹，再切到 deterministic ODE sampling 保留细节
实验效果：可生成数倍于原生窗口长度的视频，时序一致性和视觉质量超越 training-free 与自回归两类基线；同一思路无微调即可扩展到音视频联合生成、文生 3DGS——证明这套方法是通用的
批判点评：Tweedie matching 在窗口边界做修正是 elegant 的解法，几乎是「无需训练」的最简扩展；但滑窗推理时延比单 pass 显著增加，长视频对内存的累积压力不算小；与原生因果模型（如 Causal Forcing++/Mutual Forcing）相比，缺少同等长度下的直接对比

6. StreamGVE：少步流式生成做训练免视频编辑

StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation | UBC ECE | arXiv:2605.21466

关键词：视频编辑·训练免微调·少步流式生成·noise-to-data·双分支

⚠️ 前序问题：视频编辑方法可行但要花很多昂贵迭代且编辑结果质量勉强。作者把症结归因到「data-to-data」范式——它和现代生成模型（noise-to-data）天生不兼容，绕远路反而拉低了编辑质量
本文贡献：从 noise-to-data 视角重做视频编辑：基于预训练的流式生成模型构建 StreamGVE，保留 few-step 采样并无缝注入源视频条件；引入双分支快速采样（self-attention bridge + cross-attention grounding/boosting）兼顾采样和条件；提出 source-oriented guidance 提目标质量，再加 visual prompting 增强编辑灵活性
实验效果：在多种视频编辑任务上一致超越现有方法，即使在 few-step 设置下也能以最少时间代价完成；方法对不同底模具有鲁棒性和泛化能力
批判点评：把视频编辑「从 data-to-data 转向 noise-to-data」是个范式级洞察，能直接复用流式生成模型的少步能力——很省工；但在风格迁移、物体替换等具体编辑任务上的优势是否一致需要更细分对比；source-oriented guidance 的强度调参成本未明

7. FlowErase-RL：首个GRPO范式的概念擦除框架

FlowErase-RL: Rethinking Concept Erasure as Reward Optimization in Flow Matching Models | 哈工大深圳, 清华深圳, 吉林大学, 鹏城实验室, 清华大学 | arXiv:2605.19739

关键词：Flow Matching·概念擦除·GRPO·安全生成·双路径奖励

⚠️ 前序问题：Flow Matching 文生图模型质量飞涨同时安全风险也在加剧，要擦除有害/不想要的概念。现有方案要么是推理期干预（效果有限），要么靠 SFT（依赖精对齐数据 + 多概念扩展性差）——擦除问题一直缺少更优范式
本文贡献：首次把概念擦除重新表述为 reward optimization 问题，提出基于 GRPO 的 FlowErase-RL：(1) 双路径动态奖励——CE（Concept Erasure）奖励抑制目标概念，NS（Non-target Space）奖励保住生成质量；(2) 性能驱动的自适应切换策略，无需显式监督就能稳定训练；通用支持裸露/物体/艺术风格三类擦除
实验效果：裸露/物体/艺术风格三类擦除均达 SOTA，图像质量与语义对齐保持很好；对抗攻击鲁棒性强，多概念场景扩展性好——开辟了 Flow Matching 安全可控生成的新范式
批判点评：把擦除从 SFT 转向 RL 是聪明的——擦除本质是分布偏移而非分类，RL 的奖励更贴合；但 GRPO 训练成本不低，CE/NS 双奖励的权重边界对效果影响多大未深入消融；擦除概念之间的相互干扰（擦了概念 A 影响概念 B 的生成）这一长尾问题未充分讨论

8. CPC-VAR：首次给VAR模型做持续多概念个性化

CPC-VAR: Continual Personalized and Compositional Generation in Visual Autoregressive Models | 哈工大深圳, 清华深圳国际研究生院, 鹏城实验室, 华南理工 | arXiv:2605.19750

关键词：持续学习·VAR 个性化·概念神经元·多概念合成·解纠缠

⚠️ 前序问题：Visual Autoregressive（VAR）做文生图效率高，但现有 VAR 个性化只能静态训单概念——序列学新概念时旧概念会被灾难性遗忘，多概念合成又会出现特征纠缠和属性不一致。这是 VAR 个性化生成的两个老大难
本文贡献：首次系统研究 VAR 持续个性化生成，提出统一框架。两个核心组件：(1) GCNS（Gradient-based Concept Neuron Selection），找到每个概念相关的神经元，只约束跨任务冲突参数，不扩展模型也能抗遗忘；(2) 上下文感知组合策略：多分支特征建模 + 空间条件引导的局部 cross-attention 融合，做精确解纠缠的多概念合成
实验效果：长序列持续个性化场景下显著领先现有 baseline，多概念图像合成上也优于现有方法，证明 VAR 完全有能力做可扩展可控的个性化生成
批判点评：VAR 个性化第一次被系统化研究是好事，神经元级别的 GCNS 设计也比经典扩散模型路线（DreamBooth/LoRA）更经济；但实验是否覆盖到 10+ 概念的真实长尾、跨概念组合的失败模式分析略浅，VAR 底模本身的天花板（vs 扩散模型）没有正面比较

9. DyMoS：一个标量旋钮控 I2V 运动幅度

Rebalancing Reference Frame Dominance to Improve Motion in Image-to-Video Models | 延世大学 Yonsei, GIST, Adobe Research | arXiv:2605.19398

关键词：I2V·运动控制·注意力 rebalance·训练免微调·DyMoS

⚠️ 前序问题：I2V（image-to-video）相比 T2V 生成的视频普遍过于静态。前人方案靠削弱或修改图像条件来增加运动，但要么需要额外训练，要么牺牲了对参考图像的保真度——「动起来 vs 像参考图」是个长期 tradeoff
本文贡献：识别出「reference-frame dominance」是动作抑制的核心机制：非参考帧对参考帧 key token 分配过多 self-attention，导致参考信息被过度跨时传播、压制了帧间动态。提出 DyMoS（Dynamic Motion Slider）：训练免微调、模型无关，初始去噪步 rebalance 生成帧到参考帧的注意力路径，输入图和模型权重都不动，只引入一个标量参数连续控制运动强度
实验效果：多个 SOTA I2V backbone 上一致提升运动动态，同时保持视觉质量和对参考图的保真度；提供 user 一个可调的运动旋钮
批判点评：把「动起来 vs 像参考图」从冲突变成可调旋钮是非常实用的工程贡献；但 attention rebalance 的具体公式对不同架构可能需重新调，论文给出的 generality 主要在 SD 系列底模；标量旋钮是否能控制不同方向的运动（横向 vs 纵向）需要更细粒度评测

10. MSAVBench：首个多镜头音视频生成评测基准

MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation | 复旦大学, 港大, 阿里通义实验室, 浙大, 北大 | arXiv:2605.20183

关键词：多镜头音视频·评测基准·导演级控制·自适应分镜·MSAVBench

⚠️ 前序问题：视频生成正从单镜头扩展到复杂多镜头音视频（MSAV）叙事，但评测仍是基础性挑战——现有 benchmark 范围有限、数据多样性不足、评测流水线僵化，无法系统可靠地评估现代 MSAV 模型
本文贡献：推出 MSAVBench 首个面向多镜头音视频生成的综合评测基准 + 自适应混合评测框架。覆盖视频/音频/镜头/参考四个维度，多种任务设置，最多 15 个镜头，挑战性的非真实场景。评测框架的鲁棒性来自三件事：分镜分割的自适应 self-correction、主观指标的实例级 rubric、复杂判断的工具溯源证据抽取
实验效果：与人类判断的 Spearman 秩相关达 91.5%，对齐度极高；系统评测 19 个 SOTA 闭源/开源模型显示：当前系统在导演级控制和细粒度音视频同步上仍有困难，模块化/agentic 生成 pipeline 是缩小开源-闭源差距的有前途路径；benchmark 数据和评测代码将开源
批判点评：把音视频生成评测从「单镜头质量」推进到「多镜头叙事 + 导演级控制」是必要的下一步；91.5% Spearman 与人类对齐很高，自适应分镜 self-correction 是工程亮点；但 15 个镜头作为基准上限对真正的长视频（>5 分钟、几十个镜头）覆盖度有限；非真实场景的标注成本与一致性如何控制仍是开放问题

11. CogOmniControl：专用CogVLM认知创意意图引导生成

CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition | 澳门大学 SKL-IOTSC, 腾讯 Online-Video BU | arXiv:2605.19995

关键词：可控视频生成·专业 VLM·创意意图认知·闭环 harness·in-context

⚠️ 前序问题：视频扩散模型对 abstract / 稀疏 / 复杂条件依然脆弱——专业制作工作流（分镜草图、黏土渲染等）下表现差。现有方案要么用 adapter 注入条件，要么把通用 VLM 耦合到扩散 backbone——能力鸿沟仍在，难以输出对齐用户创意意图的视频
本文贡献：提出 CogOmniControl 推理驱动框架：把可控视频生成因式分解为「创意意图认知」+「生成」。专门用真实动漫制作数据训了一个专业版 CogVLM，比通用 VLM 更准确地从稀疏抽象条件中识别用户创意意图，转译成密集 reasoning 输出；CogOmniDiT 通过 in-context generation 统一多种条件，并用 RL 对齐到 CogVLM reasoning 输出。进一步利用 CogVLM 做评测与 Best-of-N 选择，整个框架是闭环 harness 架构。同时发布 CogReasonBench / CogControlBench 来自专业工作流的真实创意意图数据
实验效果：两个 benchmark 上一致超越现有开源模型，在分镜草图、黏土渲染等专业条件下尤其明显——证明专业 VLM 介入的认知能力对可控生成是有效的
批判点评：专业 VLM 当「创意意图认知器」是个新颖思路，引入 reasoning 缓解条件稀疏问题——但训练专业版 VLM 的数据规模有限，跨垂直域（动漫→真人/工业）泛化未验证；闭环 harness 架构推理时延偏高，落地工业流水线存在挑战

12. DiSI：单模型连续滑动失真感知权衡

Disentangling Generation and Regression in Stochastic Interpolants for Controllable Image Restoration | 同济大学, 复旦大学 | arXiv:2605.21381

关键词：图像复原·Stochastic Interpolant·生成-回归解耦·失真感知权衡·像素空间

⚠️ 前序问题：图像复原（IR）领域生成式（Diffusion/Flow Matching）擅长合成真实纹理但慢且像素保真度差；经典回归式方法单步高效像素准确——两条路线长期不能兼得
本文贡献：提出 DiSI 统一框架：把底层 Stochastic Interpolant 过程显式解耦为独立的生成分量和回归分量。这种解耦让模型在「纯回归 → 全生成」之间连续可控过渡。技术上提供两条具体采样轨迹和统一 sampler 支持任意轨迹的少步推理；网络是像素空间的双分支 U-Net 风格 transformer（专用分支增强条件引导同时保高吞吐）
实验效果：在多种 IR 任务上以高效率取得有竞争力的结果；独有特性：单一模型推理期就能控制失真-感知 tradeoff（distortion-perception trade-off），不再需要训多个模型
批判点评：把 SI 过程拆成生成+回归两个可独立调用的分量，在理论上很优雅，给「失真-感知」连续控制提供了第一种统一手段；但实际 IR 任务中如何选择最佳轨迹（用户需指定 tradeoff？）的 UI/控制接口论文未深入讨论；与最新 OSEDiff/PASD 等方法的端到端对比有所欠缺

13. ABSS：初始几步注意力筛 seed 提画质

Boosting Text-to-Image Diffusion Models via Core Token Attention-Based Seed Selection | Brandeis University | arXiv:2605.19532

关键词：文生图·Seed Selection·Cross-Attention·训练免微调·SD

⚠️ 前序问题：文生图扩散模型的输出对随机 seed 极度敏感——不同 seed 同 prompt 画质和文图对齐差异巨大。但「该用哪个 seed」一直靠盲选，缺乏系统的预选机制
本文贡献：观察到一个关键现象：在前几步去噪过程中，对 prompt 中 core token（content-bearing words）的 cross-attention dynamic 强烈预测最终生成质量。基于此提出 ABSS（Attention-Based Seed Selection），训练免微调即插即用：候选 seed 跑前几步，用对 core token 的 cross-attention 打分排序，只保留 top-k 完成完整生成，不需要固定阈值
实验效果：三个 benchmark 上 Stable Diffusion 各变体的文图对齐和视觉质量一致提升，人工偏好与对齐指标都有改善；可作为现有 seed 优化 pipeline 的轻量预选附加组件叠加额外收益
批判点评：很经济的工程发现：把 seed 筛选问题转换为前几步 attention 信号读取，几乎没有计算开销；但这种基于 attention 的代理指标在跨架构（DiT/MMDiT）的可迁移性需要进一步验证；core token 的提取依赖 prompt parsing 的鲁棒性

趋势观察

「编辑」开始成为统一多模态模型的核心训练任务 — Uni-Edit 把智能编辑提为 UMM 单一通用训练任务，BAGEL/Janus-Pro 上一个数据集就能同时提理解/生成/编辑——「编辑作为通用任务」的认知正在替代「混合多任务训练」的范式。FullFlow 用同样的精简思路（只训 5% 参数）把 T2I 升级成双向多模态，从「重训」走向「升级」
视频生成加速进入「时空联合 + 稀疏注意力」阶段 — DVG 把渐进分辨率从单空间扩到时空联合，HunyuanVideo 上 7× 加速 + 蒸馏达 18×；BA-Att 用块预降采样稀疏注意力比 FlashAttention 还快 6.95×。视频扩散下一阶段的加速重心从单维度优化转向「时空 + 稀疏」组合拳
长视频生成从训练扩展走向「推理期方法」 — FlowLong 用 Tweedie matching 滑窗 training-free 把视频时长扩到数倍——这条 inference-time 路线和 Mutual Forcing/Causal Forcing++ 的训练侧路线形成互补，意味着长视频不一定要重新训模型
I2V 运动控制和文生图 seed 选择都被「单一标量旋钮 + Attention 信号」攻破 — DyMoS 用一个标量参数控 I2V 运动幅度（attention rebalance）；ABSS 用初始几步 cross-attention 信号筛 seed——共同点是把「需要训练才能解决」的问题，转化为「读取已有 attention 信号」的免训练方案
概念擦除从 SFT 范式跨入 RL 范式 — FlowErase-RL 首次用 GRPO 做 Flow Matching 概念擦除，CE+NS 双路径动态奖励替代精对齐 SFT 数据——证明在 Flow Matching 时代，「擦除」本质上更适合用 RL 的分布偏移视角而非分类监督视角

人工智能炼丹君整理 | 2026-05-21