今日 arXiv cs.CV 视觉生成相关论文共 10 篇。
方向分布:
V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think | 2604.23380
关键词: 强化学习·扩散模型·ELBO·GRPO·文生图对齐
前序工作问题: 用策略梯度在线 RL 对齐扩散生成模型面临似然不可解难题,现有 MDP 轨迹方法稳定但低效,ELBO 代理方法在视觉生成上表现不佳
贡献: 提出 V-GRPO,将 ELBO 代理与 GRPO 算法融合,通过降低代理方差和控制梯度步长使 ELBO 路线首次超越 MDP 方法,实现稳定高效的扩散模型 RL 对齐
效果: 在文生图合成中达到 SOTA 性能,相比 MixGRPO 提速 2 倍,相比 DiffusionNFT 提速 3 倍,且实现简单、与预训练目标自然对齐
批判点评: ELBO 代理的方差控制依赖精心调参,泛化到不同扩散架构的鲁棒性待验证;仅在文生图场景评估,对视频生成等其他扩散任务的迁移能力未知;与 DPO 等离线方法的对比缺少公平条件分析
VibeToken: Scaling 1D Image Tokenizers and Autoregressive Models for Dynamic Resolution Generations | 2604.24885
关键词: 图像Tokenizer·自回归生成·动态分辨率·1D序列·CVPR 2026
前序工作问题: 固定分辨率 AR 模型的推理 FLOPs 随分辨率二次增长(LlamaGen 在 1024×1024 需 11T FLOPs),且无法泛化到任意宽高比
贡献: 提出 VibeToken,基于 1D Transformer 的分辨率无关图像 Tokenizer,将图像编码为 32-256 个用户可控 token,实现动态分辨率自回归生成;VibeToken-Gen 仅用 64 token 即可合成 1024×1024 图像
效果: 64 token 生成 1024×1024 图像达 3.94 gFID(对比 SOTA 扩散模型 1024 token / 5.87 gFID),推理 FLOPs 仅 179G,比 LlamaGen 高效 63.4 倍且与分辨率无关
批判点评: 极端压缩(32 token 编码一张图)可能丢失高频细节;1D tokenizer 对空间结构的建模能力不如 2D 方案;CVPR 接收但 gFID 指标与最新扩散模型仍有差距
Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation | 2604.25819
关键词: 音视频生成·自回归·自蒸馏·少步生成·双模式协同
前序工作问题: 现有流式蒸馏管线需先训练双向教师模型再多阶段蒸馏为因果生成器,流程复杂、训练开销大,且受限于固定教师质量
贡献: 提出 Mutual Forcing 框架,在原生自回归模型上集成少步和多步两种生成模式共享参数,多步模式通过自蒸馏提升少步模式质量,少步模式在训练时生成历史上下文改善训练-推理一致性,两模式互相强化
效果: 仅用 4-8 步即可匹配或超越需要约 50 步采样的强基线,无需额外双向教师模型,支持更灵活的训练序列长度
批判点评: 双模式共享参数可能导致两种模式互相干扰而非完全互补;4-8 步生成在高质量要求场景下是否真正匹配全步效果需更多定量验证;仅在角色动画场景验证,泛化到通用音视频的能力待考
A Systematic Post-Train Framework for Video Generation | 2604.25427
关键词: 视频生成·后训练·RLHF·GRPO·SFT·推理优化
前序工作问题: 大规模视频扩散模型预训练后仍存在提示敏感、时序不一致和推理成本过高等问题,导致与实际部署需求之间有巨大差距
贡献: 提出系统化后训练框架,分四阶段逐步对齐:SFT 稳定指令跟随 → RLHF(视频专用 GRPO)增强感知质量和时序一致性 → 提示增强精炼用户输入 → 推理优化压缩采样成本
效果: 统一管线有效抑制常见伪影,显著提升可控性和视觉美学,同时满足严格的采样成本约束,提供可复制的生产级后训练蓝图
批判点评: 四阶段串联管线的调参和维护成本极高;GRPO 在视频维度的奖励设计细节不够充分;缺少与 InstructVideo、VideoDirectorGPT 等已有后训练方法的直接对比
Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models | 2604.25636
关键词: 统一多模态·图像精修·条件再生成·语义对齐·修改空间
前序工作问题: 统一多模态模型的精修方法沿用编辑范式(RvE),编辑指令对齐描述粗糙且像素级保留过度限制修改空间,导致精修不完整
贡献: 提出 Refinement via Regeneration (RvR) 框架,将精修重定义为基于目标提示和初始图像语义 token 的条件再生成,突破编辑范式的修改空间限制实现更完整的语义对齐
效果: Geneval 从 0.78 提升至 0.91,DPGBench 从 84.02 到 87.21,UniGenBench++ 从 61.53 到 77.41,全面提升文图对齐质量
批判点评: 再生成策略可能导致图像风格和低级纹理的不一致;对已经高度对齐的初始图像反而可能引入不必要的变化;语义 token 的压缩程度对再生成质量的影响未充分消融
Step-Audio-R1.5 Technical Report | 2604.25719
关键词: 音频推理·RLHF·可验证奖励陷阱·韵律自然度·沉浸对话
前序工作问题: 大型音频语言模型通过 RLVR 优化在基准测试上取得高分,但系统性地退化对话的韵律自然度、情感连续性和用户沉浸感,变成机械的「答题机器」
贡献: 揭示「可验证奖励陷阱」——RLVR 将丰富连续的听觉语境压缩为离散可验证标签的根本矛盾;引入 Step-Audio-R1.5,开创性地在音频推理中使用 RLHF 替代 RLVR,从机械客观验证转向感官共情
效果: Step-Audio-R1.5 在保持分析推理能力的同时深刻改善交互体验,重新定义深度沉浸式长轮对话的边界
批判点评: RLHF 的人类偏好数据收集成本极高且主观性强;「可验证奖励陷阱」的论述虽有洞察但定量证据不足;对非对话场景(如音频分类、音频检索)的影响未讨论
Co-Director: Agentic Generative Video Storytelling | 2604.24842
关键词: 视频叙事·多智能体·分层优化·多臂赌博机·身份一致性
前序工作问题: 扩散模型能生成高保真视频片段但难以构成连贯叙事,现有智能体管线因独立手工提示而导致语义漂移和级联失败
贡献: 提出 Co-Director 分层多智能体框架,将视频叙事形式化为全局优化问题:多臂赌博机全局探索有前景的创意方向,局部多模态自精炼循环抑制身份漂移确保序列级一致性
效果: 在 GenAD-Bench(400 场景个性化广告数据集)上显著超越 SOTA 基线,可无缝泛化到更广泛的电影叙事
批判点评: 多臂赌博机的探索-利用权衡在创意领域的适用性存疑;400 场景集中在广告领域,对长篇叙事的验证不足;多智能体协调的计算开销和延迟缺乏量化分析
Golden RPG: Confidence-Adaptive Region-Aware Noise for Compositional Text-to-Image Generation | 2604.25314
关键词: 组合式文生图·区域感知·噪声预测·FiLM·置信度自适应
前序工作问题: 扩散模型的 golden noise 预测本质上是全局的,同一网络用单一文本嵌入概括多区域提示,在描述空间分离实体时成为瓶颈
贡献: 提出 Golden RPG,在冻结 NPNet 上增加两个可训练模块:逐区域 FiLM 适配器按子提示重塑预测噪声、Region Cross-Attention 让不同空间位置关注不同子提示 token;置信度自适应融合头动态决定区域信号覆盖全局信号的强度
效果: 在 RPG 基准和 T2I-CompBench 四类多区域评测上均取得最高 Cross-Region-Coherence 分数,用户研究中约 67% 偏好率超越最强基线,仅增加约 2M 参数和 0.6s 推理开销
批判点评: 依赖冻结的 NPNet 基座,其固有局限传导到区域预测;FiLM 适配器的区域分解假设子提示完全独立,忽略跨区域交互;仅在 SDXL 上验证,对其他扩散架构的迁移性未知
ResetEdit: Precise Text-guided Editing of Generated Image via Resettable Starting Latent | 2604.25128
关键词: 图像编辑·扩散反演·可重置隐变量·主动嵌入·VAE补偿
前序工作问题: 现有反演方法(如 DDIM 反演)产生的起始隐变量质量差,导致编辑保真度和结构一致性受损;理想的编辑锚点是生成时的原始隐变量,但为每张图存储该隐变量不现实
贡献: 提出 ResetEdit 主动扩散编辑框架,在生成过程中将干净隐变量与扩散隐变量的差异信息嵌入扩散轨迹,反演时提取该信息重建近似真实起始状态的可重置隐变量;轻量隐变量优化模块补偿 VAE 不对称导致的重建偏差
效果: 基于 Stable Diffusion 无缝集成现有免微调编辑方法,在可控性和视觉保真度上持续超越 SOTA 基线
批判点评: 需要在生成阶段预埋信息,无法用于已有的外部图像编辑;嵌入的差异信息可能影响原始生成质量;对高步数扩散过程的信息保持能力未分析
SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton | 2604.25498
关键词: 音乐生成·交响乐·3D分层·GRPO·不协和感知采样
前序工作问题: 交响音乐生成需同时管理高层结构形式和密集多轨编配,现有符号模型面临「复杂度-控制失衡」,扩展瓶颈限制长期精细可控性
贡献: 提出 SymphonyGen 3D 分层框架,级联解码器将 Bar-Track-Event 三轴解耦提升计算效率;引入 beat-quantized 多声部和声骨架实现轮廓控制;GRPO 跨模态音频感知奖励对齐符号输出与现代声学期望;不协和感知采样算法抑制推理时的意外调性冲突
效果: 客观评估证明 RL 和不协和感知采样有效提升和声清洁度同时保持旋律表达力,主观评估在音乐性和偏好度上超越基线
批判点评: 3D 分层解码器的三轴解耦假设 Bar/Track/Event 独立性,可能丢失跨轴依赖;GRPO 奖励基于音频渲染,符号到音频的转换引入额外噪声;训练数据以西方古典/电影音乐为主,对其他音乐体系的泛化有限
人工智能炼丹君 整理 | 2026-04-30
更多 AIGC 论文解读,关注微信公众号「人工智能炼丹君」
每日更新 · 论文精选 · 深度解读 · 技术脉络
微信搜索 人工智能炼丹君 或扫描下方二维码关注

评论 (0)