今日 arXiv cs.CV 视觉生成相关论文共 10 篇,重点解读 1 篇。
方向分布:
含多篇开源代码,覆盖视频/图像/音频三大生成方向
解耦记忆控制——用轻量级独立记忆分支实现空间一致性长视频生成 | HKPU, ByteDance | arXiv:2604.18215
关键词: 长视频生成, 空间一致性, 解耦记忆, 相机轨迹
核心问题: 长视频生成中场景重访的空间不一致问题
沿预定义相机轨迹生成空间一致的长视频是当前视频生成领域的重要挑战。现有方法大多将记忆建模与视频生成耦合在一起,导致场景重访时出现内容不一致,而在探索新区域时生成能力下降。即使在大规模标注数据上训练,这些问题仍然存在。因此,亟需一种能同时保持空间一致性和新场景生成能力的新框架。
前序工作及局限:
与前序工作的本质区别: 将记忆与生成彻底解耦,用轻量独立分支和门控机制实现按需记忆

提出解耦框架,将记忆条件与生成过程分离。核心设计包括三个组件:
混合记忆表示(Hybrid Memory Representation):从已生成帧中捕获互补的时间与空间线索,构建丰富的历史信息表示。
逐帧交叉注意力(Per-Frame Cross-Attention):确保每一帧仅基于与其空间最相关的历史信息进行条件生成,精准注入记忆到生成模型中。
相机感知门控机制(Camera-Aware Gating):在生成新场景时,动态调节记忆模块与生成模块的交互,仅当存在有意义的历史参考时才启用记忆条件,避免无用记忆干扰新区域的探索。
轻量级独立记忆分支从生成过程中学习精确的空间一致性,训练成本大幅降低。

概念对比图:解耦记忆控制 vs. 耦合式框架
图示展示三种框架对比:(a) 标准预训练视频生成模型无记忆能力,(b) 现有方法将记忆与生成耦合导致一致性问题,(c) 本文解耦框架用独立记忆分支实现按需记忆。右侧对比了两种方法在场景重访时的一致性表现。
解耦框架完整架构:混合记忆 + 交叉注意力 + 相机感知门控
完整方法架构图:左上角输入之前生成的帧和相机位姿,通过 FOV 引导检索和编码器生成混合记忆表示。记忆控制分支通过逐帧交叉注意力机制让每帧仅关注最相关的历史信息,相机感知门控决定是否注入到预训练 DiT 视频生成模型中。
与多种方法的视觉对比:前向探索 + 回访一致性

与 WorldPlay、VMem、SEVA、DFoT、AC3D 五种方法的详细视觉对比。在前向旋转探索阶段所有方法都能生成合理内容,但在回访已见场景时本文方法保持了精确的空间一致性。
深度点评:
技术演进定位: 在空间一致长视频生成方向上实现了 SOTA,向世界模型迈进
可能的后续方向:
EMF: Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation | Nankai University, Alibaba AMAP
关键词: 一步生成·MeanFlow·文本条件·LLM编码器·图像合成
贡献: 首次将 MeanFlow 框架从类别标签扩展到文本条件,实现高效的一步文本到图像生成。揭示了 MeanFlow 少步生成中文本特征需要高区分度的关键洞察,开发了基于 LLM 文本编码器的解决方案。
效果: 在 MeanFlow 框架下首次实现文本条件的一步图像生成,同时在扩散模型上也展示了显著的生成性能提升。代码已开源。
TS-Attn: Temporal-wise Separable Attention for Multi-Event Video Generation | Peking University, Zhejiang University, Nankai University, MIT, NJU, UCSB
关键词: 多事件视频·免训练·时间注意力·Wan2.1·即插即用
贡献: 提出免训练的时间可分离注意力机制(TS-Attn),解决多事件视频生成中动作保真度与时间一致性的固有矛盾。可即插即用到 Wan2.1-T2V-14B 等预训练模型中。
效果: 在 Wan2.1-T2V-14B 上 StoryEval-Bench 提升 33.5%,在 Wan2.2-T2V-A14B 上提升 16.4%,推理开销仅 +2%。代码已开源。
Speculative Decoding for Autoregressive Video Generation | Tsinghua University
关键词: 投机解码·自回归视频·加速推理·ImageReward·免训练
贡献: 首次将投机解码(Speculative Decoding)引入自回归视频扩散模型加速。用 1.3B 小模型起草候选块,ImageReward 路由器以最差帧评分筛选,实现免训练、无需架构修改的视频生成加速。
效果: 在 MovieGenVideoBench 上,保持 98.1% 质量实现 1.59× 加速,或 2.09× 加速保持 95.7% 质量,始终比纯 Draft 高 >17%。
ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis | CUHK(SZ), SSE, FNii
关键词: 人体视频·SMPL-X·图像先验·视角控制·免训练精炼
贡献: 提出先图像后视频的人体视频生成范式,将高质量人体外观学习与时序一致性解耦。结合 SMPL-X 姿态引导和预训练视频扩散模型的免训练时序精炼。
效果: 在多样化姿态和视角下生成高质量、时序一致的人体视频。发布了标准化人体数据集和辅助合成模型。代码已开源。
DGSSM: Diffusion Guided State-Space Models for Multimodal Salient Object Detection | IIT Guwahati
关键词: 显著性检测·Mamba·扩散先验·多模态·边界感知
贡献: 提出扩散引导的状态空间模型框架,将多模态显著性检测建模为渐进去噪过程。融合 Mamba 高效全局推理与扩散结构先验。
效果: 在 13 个公开基准(RGB、RGB-D、RGB-T)上全面超越现有 SOTA,同时保持紧凑的模型尺寸。
Denoising, Fast and Slow: Difficulty-Aware Adaptive Sampling for Image Generation | CompVis @ LMU Munich
关键词: 自适应去噪·Patch级调度·难度感知·计算优化·扩散模型
贡献: 探索 patch 级别的噪声调度用于图像合成,提出 Patch Forcing 框架,让简单区域先行去噪为困难区域提供上下文。引入自适应难度头按需分配计算资源。
效果: 在 class-conditional ImageNet 上实现优于基线的生成质量,与表示对齐和引导方法正交,可扩展到文本到图像合成。
Video-Robin: Autoregressive Diffusion Planning for Intent-Grounded Video-to-Music Generation | UMD, Microsoft
关键词: 视频到音乐·自回归规划·扩散合成·文本条件·DiT
贡献: 提出 Video-Robin,结合自回归规划与扩散合成的文本条件视频到音乐生成模型。自回归模块建模全局结构并对齐视觉与文本语义。
效果: 在分布内和分布外基准上均超越仅接受视频输入和额外特征条件的基线,推理速度比 SOTA 快 2.21 倍。
HP-Edit: A Human-Preference Post-Training Framework for Image Editing | Harbin Institute of Technology, ByteDance
关键词: 图像编辑·人类偏好·RLHF·VLM评分器·后训练
贡献: 提出 HP-Edit 人类偏好对齐的图像编辑后训练框架,发布 RealPref-50K 真实世界偏好数据集覆盖 8 类编辑任务。训练 HP-Scorer 自动评分器作为 RLHF 奖励函数。
效果: 显著增强 Qwen-Image-Edit-2509 等模型的输出,使其更贴合人类偏好。同时发布 RealPref-Bench 基准。
AdaCluster: Adaptive Query-Key Clustering for Sparse Attention in Video Generation | USTC, Hefei Science Center, University of Macau
关键词: 稀疏注意力·自适应聚类·视频DiT·加速推理·免训练
贡献: 提出免训练的自适应聚类稀疏注意力框架 AdaCluster,针对视频 DiT 的二次注意力复杂度问题。Q/K 分别采用角度和欧氏距离保持的聚类策略。
效果: 在 CogVideoX-2B、HunyuanVideo 和 Wan-2.1 上实现 1.67-4.31× 加速,质量损失可忽略不计,仅需单张 A40 GPU。
人工智能炼丹君 整理 | 2026-04-22
更多 AIGC 论文解读,关注微信公众号「人工智能炼丹君」
每日更新 · 论文精选 · 深度解读 · 技术脉络
微信搜索 人工智能炼丹君 或扫描文末二维码关注
评论 (0)