标签强化学习下的文章 - 人工智能炼丹师 - AIGC论文速读

标签搜索

Jefxiong

累计撰写 65 篇文章
累计收到 8 条评论

搜索到 2 篇与强化学习的结果

2026-04-30
AIGC 每日速读|2026-04-30|V-GRPO让RL对齐提速3倍，64token暴力生图今日核心看点 RL对齐扩散 1D AR生成视频后训练音频RLHF 组合式文生图今日概览今日 arXiv cs.CV 视觉生成相关论文共 10 篇。方向分布：扩散模型 RL 对齐与加速 2 篇 (V-GRPO, Mutual Forcing) 视频生成后训练与叙事 2 篇 (Systematic Post-Train, Co-Director) 图像生成与编辑 4 篇 (VibeToken, RvR, Golden RPG, ResetEdit) 音频与音乐生成 2 篇 (Step-Audio-R1.5, SymphonyGen) 今日论文速览 1. V-GRPO：RL对齐扩散模型原来这么简单，文生图SOTA提速3倍 V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think | 2604.23380 关键词：强化学习·扩散模型·ELBO·GRPO·文生图对齐前序工作问题：用策略梯度在线 RL 对齐扩散生成模型面临似然不可解难题，现有 MDP 轨迹方法稳定但低效，ELBO 代理方法在视觉生成上表现不佳贡献：提出 V-GRPO，将 ELBO 代理与 GRPO 算法融合，通过降低代理方差和控制梯度步长使 ELBO 路线首次超越 MDP 方法，实现稳定高效的扩散模型 RL 对齐效果：在文生图合成中达到 SOTA 性能，相比 MixGRPO 提速 2 倍，相比 DiffusionNFT 提速 3 倍，且实现简单、与预训练目标自然对齐批判点评： ELBO 代理的方差控制依赖精心调参，泛化到不同扩散架构的鲁棒性待验证；仅在文生图场景评估，对视频生成等其他扩散任务的迁移能力未知；与 DPO 等离线方法的对比缺少公平条件分析 2. VibeToken：1D Tokenizer让AR图像生成效率暴增63倍（CVPR 2026） VibeToken: Scaling 1D Image Tokenizers and Autoregressive Models for Dynamic Resolution Generations | 2604.24885 关键词：图像Tokenizer·自回归生成·动态分辨率·1D序列·CVPR 2026 前序工作问题：固定分辨率 AR 模型的推理 FLOPs 随分辨率二次增长（LlamaGen 在 1024×1024 需 11T FLOPs），且无法泛化到任意宽高比贡献：提出 VibeToken，基于 1D Transformer 的分辨率无关图像 Tokenizer，将图像编码为 32-256 个用户可控 token，实现动态分辨率自回归生成；VibeToken-Gen 仅用 64 token 即可合成 1024×1024 图像效果： 64 token 生成 1024×1024 图像达 3.94 gFID（对比 SOTA 扩散模型 1024 token / 5.87 gFID），推理 FLOPs 仅 179G，比 LlamaGen 高效 63.4 倍且与分辨率无关批判点评：极端压缩（32 token 编码一张图）可能丢失高频细节；1D tokenizer 对空间结构的建模能力不如 2D 方案；CVPR 接收但 gFID 指标与最新扩散模型仍有差距 3. Mutual Forcing：4步搞定音视频角色生成，无需教师模型 Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation | 2604.25819 关键词：音视频生成·自回归·自蒸馏·少步生成·双模式协同前序工作问题：现有流式蒸馏管线需先训练双向教师模型再多阶段蒸馏为因果生成器，流程复杂、训练开销大，且受限于固定教师质量贡献：提出 Mutual Forcing 框架，在原生自回归模型上集成少步和多步两种生成模式共享参数，多步模式通过自蒸馏提升少步模式质量，少步模式在训练时生成历史上下文改善训练-推理一致性，两模式互相强化效果：仅用 4-8 步即可匹配或超越需要约 50 步采样的强基线，无需额外双向教师模型，支持更灵活的训练序列长度批判点评：双模式共享参数可能导致两种模式互相干扰而非完全互补；4-8 步生成在高质量要求场景下是否真正匹配全步效果需更多定量验证；仅在角色动画场景验证，泛化到通用音视频的能力待考 4. 视频生成后训练蓝图：SFT→RLHF→提示增强→推理优化四步走 A Systematic Post-Train Framework for Video Generation | 2604.25427 关键词：视频生成·后训练·RLHF·GRPO·SFT·推理优化前序工作问题：大规模视频扩散模型预训练后仍存在提示敏感、时序不一致和推理成本过高等问题，导致与实际部署需求之间有巨大差距贡献：提出系统化后训练框架，分四阶段逐步对齐：SFT 稳定指令跟随 → RLHF（视频专用 GRPO）增强感知质量和时序一致性 → 提示增强精炼用户输入 → 推理优化压缩采样成本效果：统一管线有效抑制常见伪影，显著提升可控性和视觉美学，同时满足严格的采样成本约束，提供可复制的生产级后训练蓝图批判点评：四阶段串联管线的调参和维护成本极高；GRPO 在视频维度的奖励设计细节不够充分；缺少与 InstructVideo、VideoDirectorGPT 等已有后训练方法的直接对比 5. RvR：统一多模态模型的图像精修应该「再生」而非「编辑」 Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models | 2604.25636 关键词：统一多模态·图像精修·条件再生成·语义对齐·修改空间前序工作问题：统一多模态模型的精修方法沿用编辑范式（RvE），编辑指令对齐描述粗糙且像素级保留过度限制修改空间，导致精修不完整贡献：提出 Refinement via Regeneration (RvR) 框架，将精修重定义为基于目标提示和初始图像语义 token 的条件再生成，突破编辑范式的修改空间限制实现更完整的语义对齐效果： Geneval 从 0.78 提升至 0.91，DPGBench 从 84.02 到 87.21，UniGenBench++ 从 61.53 到 77.41，全面提升文图对齐质量批判点评：再生成策略可能导致图像风格和低级纹理的不一致；对已经高度对齐的初始图像反而可能引入不必要的变化；语义 token 的压缩程度对再生成质量的影响未充分消融 6. Step-Audio-R1.5：用RLHF突破音频推理的「可验证奖励陷阱」 Step-Audio-R1.5 Technical Report | 2604.25719 关键词：音频推理·RLHF·可验证奖励陷阱·韵律自然度·沉浸对话前序工作问题：大型音频语言模型通过 RLVR 优化在基准测试上取得高分，但系统性地退化对话的韵律自然度、情感连续性和用户沉浸感，变成机械的「答题机器」贡献：揭示「可验证奖励陷阱」——RLVR 将丰富连续的听觉语境压缩为离散可验证标签的根本矛盾；引入 Step-Audio-R1.5，开创性地在音频推理中使用 RLHF 替代 RLVR，从机械客观验证转向感官共情效果： Step-Audio-R1.5 在保持分析推理能力的同时深刻改善交互体验，重新定义深度沉浸式长轮对话的边界批判点评： RLHF 的人类偏好数据收集成本极高且主观性强；「可验证奖励陷阱」的论述虽有洞察但定量证据不足；对非对话场景（如音频分类、音频检索）的影响未讨论 7. Co-Director：多智能体协作驱动视频叙事创作 Co-Director: Agentic Generative Video Storytelling | 2604.24842 关键词：视频叙事·多智能体·分层优化·多臂赌博机·身份一致性前序工作问题：扩散模型能生成高保真视频片段但难以构成连贯叙事，现有智能体管线因独立手工提示而导致语义漂移和级联失败贡献：提出 Co-Director 分层多智能体框架，将视频叙事形式化为全局优化问题：多臂赌博机全局探索有前景的创意方向，局部多模态自精炼循环抑制身份漂移确保序列级一致性效果：在 GenAD-Bench（400 场景个性化广告数据集）上显著超越 SOTA 基线，可无缝泛化到更广泛的电影叙事批判点评：多臂赌博机的探索-利用权衡在创意领域的适用性存疑；400 场景集中在广告领域，对长篇叙事的验证不足；多智能体协调的计算开销和延迟缺乏量化分析 8. Golden RPG：区域感知噪声让组合式文生图更精准 Golden RPG: Confidence-Adaptive Region-Aware Noise for Compositional Text-to-Image Generation | 2604.25314 关键词：组合式文生图·区域感知·噪声预测·FiLM·置信度自适应前序工作问题：扩散模型的 golden noise 预测本质上是全局的，同一网络用单一文本嵌入概括多区域提示，在描述空间分离实体时成为瓶颈贡献：提出 Golden RPG，在冻结 NPNet 上增加两个可训练模块：逐区域 FiLM 适配器按子提示重塑预测噪声、Region Cross-Attention 让不同空间位置关注不同子提示 token；置信度自适应融合头动态决定区域信号覆盖全局信号的强度效果：在 RPG 基准和 T2I-CompBench 四类多区域评测上均取得最高 Cross-Region-Coherence 分数，用户研究中约 67% 偏好率超越最强基线，仅增加约 2M 参数和 0.6s 推理开销批判点评：依赖冻结的 NPNet 基座，其固有局限传导到区域预测；FiLM 适配器的区域分解假设子提示完全独立，忽略跨区域交互；仅在 SDXL 上验证，对其他扩散架构的迁移性未知 9. ResetEdit：给生成图预埋「回溯锚点」实现精确重编辑 ResetEdit: Precise Text-guided Editing of Generated Image via Resettable Starting Latent | 2604.25128 关键词：图像编辑·扩散反演·可重置隐变量·主动嵌入·VAE补偿前序工作问题：现有反演方法（如 DDIM 反演）产生的起始隐变量质量差，导致编辑保真度和结构一致性受损；理想的编辑锚点是生成时的原始隐变量，但为每张图存储该隐变量不现实贡献：提出 ResetEdit 主动扩散编辑框架，在生成过程中将干净隐变量与扩散隐变量的差异信息嵌入扩散轨迹，反演时提取该信息重建近似真实起始状态的可重置隐变量；轻量隐变量优化模块补偿 VAE 不对称导致的重建偏差效果：基于 Stable Diffusion 无缝集成现有免微调编辑方法，在可控性和视觉保真度上持续超越 SOTA 基线批判点评：需要在生成阶段预埋信息，无法用于已有的外部图像编辑；嵌入的差异信息可能影响原始生成质量；对高步数扩散过程的信息保持能力未分析 10. SymphonyGen：3D分层管弦乐生成，GRPO+不协和感知采样 SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton | 2604.25498 关键词：音乐生成·交响乐·3D分层·GRPO·不协和感知采样前序工作问题：交响音乐生成需同时管理高层结构形式和密集多轨编配，现有符号模型面临「复杂度-控制失衡」，扩展瓶颈限制长期精细可控性贡献：提出 SymphonyGen 3D 分层框架，级联解码器将 Bar-Track-Event 三轴解耦提升计算效率；引入 beat-quantized 多声部和声骨架实现轮廓控制；GRPO 跨模态音频感知奖励对齐符号输出与现代声学期望；不协和感知采样算法抑制推理时的意外调性冲突效果：客观评估证明 RL 和不协和感知采样有效提升和声清洁度同时保持旋律表达力，主观评估在音乐性和偏好度上超越基线批判点评： 3D 分层解码器的三轴解耦假设 Bar/Track/Event 独立性，可能丢失跨轴依赖；GRPO 奖励基于音频渲染，符号到音频的转换引入额外噪声；训练数据以西方古典/电影音乐为主，对其他音乐体系的泛化有限趋势观察 GRPO 成为生成模型标配优化器 — V-GRPO、Systematic Post-Train、SymphonyGen 三篇独立工作不约而同选择 GRPO 作为 RL 对齐核心，标志着 GRPO 从 LLM 走向多模态生成的全面渗透生成模型从预训练转向后训练精细化 — Systematic Post-Train 的四阶段蓝图和 Step-Audio-R1.5 对 RLHF 的引入，说明业界已从追求更大预训练模型转向挖掘后训练阶段的对齐潜力人工智能炼丹君整理 | 2026-04-30 更多 AIGC 论文解读，关注微信公众号「人工智能炼丹君」每日更新 · 论文精选 · 深度解读 · 技术脉络微信搜索人工智能炼丹君或扫描下方二维码关注
- 2026年04月30日
- 1 阅读
- 0 评论
- 0 点赞
2026-03-21
AIGC 周末专题深度解读：RL后训练进展|2026-03-21|偏好对齐|SOLACE|CRAFT|CRD|VIGOR| AIGC 周末专题深度解读 | 2026-03-21 | 视觉生成模型的偏好对齐与强化学习后训练人工智能炼丹师整理本期专题聚焦视觉生成模型的偏好对齐与强化学习后训练（Preference Alignment & RL Post-Training for Visual Generation），深度解读 8 篇最新论文，并对该方向的技术演进脉络进行系统性横向对比。专题概述随着扩散模型（Diffusion Models）和流匹配模型（Flow Matching Models）在图像/视频生成领域取得突破性进展，如何让生成结果更好地符合人类偏好成为当前研究的核心焦点。借鉴大语言模型领域 RLHF（Reinforcement Learning from Human Feedback）的成功经验，研究者们正在积极探索将强化学习、直接偏好优化（DPO）、组相对策略优化（GRPO）等后训练技术应用于视觉生成模型。本周（2026年3月14日-21日），该方向涌现出大量高质量论文，涵盖了从奖励模型构建、训练算法设计、到具体场景应用的完整技术栈。本期专题选取 8 篇代表性工作进行深度解读，系统梳理该方向的技术脉络与发展趋势。核心技术线索：奖励信号来源：外部奖励模型 vs 内在自置信信号 vs 几何物理约束优化算法演进：DPO -> GRPO -> 多视角GRPO -> 对比策略优化 -> 中心化奖励蒸馏应用场景拓展：T2I生成 -> 视频生成 -> 图像超分 -> AR视频 -> 少步推理模型关键挑战：奖励黑客（Reward Hacking）、分布漂移、计算效率、非可微奖励 1. FIRM: Trust Your Critic -- 鲁棒奖励建模与强化学习的忠实图像编辑与生成论文信息标题: Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation 作者: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding 等 arXiv: 2603.12247 关键词: 奖励模型鲁棒RL 图像编辑 T2I生成数据管线背景与动机强化学习（RL）已成为提升图像编辑和文本到图像（T2I）生成质量的重要范式。然而，当前的奖励模型（Reward Model）作为 RL 中的"评论家"，往往存在幻觉（hallucination）问题——给出不准确的评分，从而误导优化过程。这一问题在图像编辑场景中尤为严重：奖励模型可能对编辑后图像的忠实度评估不准确，导致生成结果偏离编辑指令。方法原理 FIRM 框架包含两大核心组件： 1) 鲁棒奖励建模定制化数据策管线（Data Curation Pipeline）：针对图像编辑和 T2I 生成分别设计数据收集流程，构建高质量的评分数据集。编辑任务收集了涵盖颜色修改、风格迁移、物体添加/删除等多种编辑类型的 66 万条评分数据。多维度评估：奖励模型同时考虑文本对齐度、编辑忠实度、图像质量等多个维度，避免单一指标的片面性。对比学习增强：通过正负样本对比学习，提升奖励模型对微妙质量差异的辨别能力。 2) 鲁棒强化学习训练噪声感知训练策略：在 RL 训练过程中，显式建模奖励信号中的噪声，通过置信度加权降低不可靠评分的影响。多奖励聚合：将多个维度的奖励信号进行加权融合，动态调整各维度权重以平衡不同目标之间的trade-off。正则化约束：引入 KL 散度正则化防止模型在优化过程中偏离预训练分布过远。创新点首个系统性解决奖励模型幻觉问题的框架：不仅改进奖励模型本身的准确性，还在 RL 训练阶段引入鲁棒性机制。 66万条高质量评分数据集开源：为社区提供了标准化的图像编辑/生成质量评估数据。统一框架同时适用于图像编辑和 T2I 生成：两个任务共享奖励建模架构，仅在数据策管线上做差异化。实验结果在图像编辑任务上，FIRM 使 InstructPix2Pix 模型在 EditBench 上的编辑准确率提升 18.7%。在 T2I 生成任务上，GenEval 综合得分从 0.63 提升至 0.79，超越 DALL-E 3 和 SDXL 基线。奖励模型本身在 ImageReward 测试集上的 Kendall's Tau 相关性从 0.52 提升至 0.68。 2. MV-GRPO: 多视角组相对策略优化 -- 从稀疏到稠密的流模型对齐论文信息标题: From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space 作者: Jiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tianyi Wei 等 arXiv: 2603.12648 关键词: GRPO 流模型多视角评估条件空间增强 T2I对齐背景与动机组相对策略优化（GRPO）已成为文本到图像流模型偏好对齐的强大框架。然而，标准 GRPO 范式存在一个根本性限制：单视角稀疏评估——对一组生成样本仅使用单一条件（prompt）进行评估，无法充分探索样本间的关系，限制了对齐效果的上限。具体来说，给定一个 prompt，GRPO 生成 N 个候选图像，然后通过奖励模型评分并计算组相对优势。但这种方式下，每个样本只从一个角度被评估，奖励信号稀疏且容易受到 prompt 特异性的影响。方法原理 MV-GRPO 提出了条件空间增强（Condition Space Augmentation）策略，将单视角稀疏评估升级为多视角稠密评估： 1) 条件空间增强对原始 prompt 进行多维度改写：语义保持改写（paraphrase）、细节扩充（detail augmentation）、视角变换（perspective shifting）。每个生成样本同时在原始 prompt 和增强 prompt 下进行评估，获得多个奖励分数。 2) 多视角优势估计将每个样本的多视角奖励分数进行聚合，计算更稳定的组相对优势：跨条件一致性加权：对于在不同 prompt 下获得一致高/低分的样本，增大其优势信号强度。条件自适应归一化：不同 prompt 的评分尺度可能不同，通过条件内归一化消除尺度差异。 3) 渐进式探索策略训练初期使用较少的增强条件，随着训练进行逐步增加，避免早期过度约束。创新点首次将多视角评估引入 GRPO 框架：突破了单条件评估的稀疏性瓶颈。条件空间增强无需额外数据：仅通过 prompt 改写即可获得稠密评估信号。理论分析：证明多视角 GRPO 的方差比标准 GRPO 低 O(1/K)（K 为视角数量）。实验结果在 FLUX.1-dev 上，GenEval 综合得分从基线 0.71 提升至 0.84（+18.3%），显著超越标准 GRPO 的 0.78。人类评估显示偏好率达到 72.3%（vs 标准 GRPO 的 58.1%）。在 T2I-CompBench 组合生成指标上，属性绑定准确率从 0.62 提升至 0.76。仅需 500 步训练即可达到标准 GRPO 2000 步的效果，训练效率提升 4x。 3. AR-CoPO: 自回归视频生成的对比策略优化论文信息标题: AR-CoPO: Align Autoregressive Video Generation with Contrastive Policy Optimization 作者: Dailan He, Guanlin Feng, Xingtong Ge, Yi Zhang, Bingqi Ma, Guanglu Song 等 arXiv: 2603.17461 关键词: 自回归视频对比策略优化 RLHF 少步蒸馏流匹配背景与动机流式自回归（Streaming AR）视频生成器结合少步蒸馏可实现低延迟、高质量的视频合成，但通过 RLHF 对齐这类模型面临独特挑战： SDE 探索失效：现有基于 SDE 的 GRPO 方法假设扩散过程有足够的随机性进行探索，但少步 ODE 和一致性模型采样器偏离了标准流匹配 ODE，其短轨迹和低随机性使得中间 SDE 探索无效。初始化敏感：少步模型的生成轨迹极短且确定性强，对初始化噪声高度敏感。帧间一致性：自回归视频生成需要在优化人类偏好的同时保持帧间时序一致性。方法原理 AR-CoPO 提出了一种专为自回归少步视频生成器设计的对比策略优化框架： 1) 输出空间对比探索（Output-Space Contrastive Exploration）放弃在扩散过程中间步骤进行探索的传统方式，直接在输出空间（生成的视频帧）进行对比。对每个时间步生成多个候选帧，通过奖励模型评分后选择最优，同时利用对比损失增大好坏样本间的差距。 2) 自回归感知的奖励传播设计时序一致性奖励：不仅评估单帧质量，还评估帧间过渡的流畅性和一致性。将帧级奖励沿时间轴反向传播，使早期帧的生成策略能考虑到后续帧的质量。 3) 参考策略锚定引入 KL 散度正则化，将优化后的策略锚定在预训练模型附近，防止过度优化导致的模式崩溃。对不同时间步使用自适应 KL 强度：早期帧（构图决定性阶段）使用较强约束，后期帧适当放松。创新点首个将 RLHF 成功应用于流式自回归视频生成器的工作：解决了少步蒸馏模型难以进行 RL 优化的技术瓶颈。输出空间对比范式：避免了中间步骤探索在少步模型上的失效问题。时序感知的奖励传播机制：在优化画面质量的同时保持视频的时序一致性。实验结果在流式 AR 视频生成基线上，VBench 得分从 78.2 提升至 83.7（+7.0%）。人类偏好评估中，AR-CoPO 生成的视频在画面质量和时序一致性两个维度上分别获得 76.4% 和 71.8% 的偏好率。仅需 4 步推理即可达到与 20 步推理 + GRPO 对齐相当的质量。 FVD（Frechet Video Distance）从 198.3 降低至 156.7。 4. CRAFT: 用复合奖励辅助微调轻松对齐扩散模型 (CVPR 2026) 论文信息标题: CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think 作者: Zening Sun, Zhengpeng Xie, Lichen Bai, Shitong Shao, Shuo Yang, Zeke Xie arXiv: 2603.18991 关键词: 复合奖励过滤 SFT GRPO下界数据效率 CVPR 2026 背景与动机当前扩散模型的偏好对齐方法面临两大挑战：数据依赖：SFT 需要昂贵的高质量图像数据；DPO 风格方法依赖大规模偏好数据集，而这些数据集质量往往不一致。计算低效：RL 类方法需要在线生成样本并计算奖励，训练成本高昂。 CRAFT 的核心洞察是：如果能构建一个高质量、一致的小规模训练集，简单的 SFT 就能达到甚至超越复杂的偏好优化方法。方法原理 CRAFT 提出了一种极其简洁但强大的两阶段范式： 1) 复合奖励过滤（Composite Reward Filtering, CRF）对每个 prompt 生成大量候选图像（如 64 张）。使用多个奖励模型从不同维度评分：美学质量、文本对齐、构图合理性、技术质量。将多维奖励分数进行加权融合，选择排名前 1-2 的图像作为训练样本。关键设计：使用相关性去偏（Correlation Debiasing）确保选出的样本在各维度上均衡优秀，而非仅在某一维度极端。 2) 增强 SFT 在过滤后的高质量小数据集上进行标准 SFT 训练。引入两项增强：(a) 噪声调度优化——对高评分样本使用更低的噪声水平；(b) 梯度裁剪——防止个别异常样本主导梯度方向。 3) 理论保证证明 CRAFT 实际上优化了基于组强化学习的下界，从理论上建立了"筛选数据 + SFT"与"GRPO"之间的联系。具体地，CRF 过程等价于 GRPO 中的组相对优势计算，而 SFT 则对应策略更新步骤。创新点仅需 100 个样本即可超越 SOTA 偏好优化方法：数据效率提升 10-100 倍。理论证明 SFT + 数据筛选是 GRPO 的下界优化：为简化的训练范式提供了理论支撑。收敛速度提升 11-220 倍：相较于 DPO 和 GRPO 基线方法。即插即用：无需修改模型架构或推理流程，仅替换训练数据和训练方式。实验结果使用仅 100 个样本的 CRAFT 在 GenEval 上得分 0.82，超越使用 5000+ 偏好对的 Diffusion-DPO（0.76）和标准 GRPO（0.79）。在 HPSv2（Human Preference Score v2）上达到 28.9，超越所有基线。训练时间：CRAFT 仅需 15 分钟（单A100），而 DPO 需要 5.5 小时，GRPO 需要 3.2 小时。在 SDXL 和 SD3.5 两个基座模型上均验证有效。 5. TDM-R1: 用非可微奖励强化少步扩散模型论文信息标题: TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward 作者: Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang arXiv: 2603.07700 关键词: 少步扩散非可微奖励代理奖励学习轨迹分布匹配文本渲染背景与动机少步生成模型（如一致性模型、蒸馏扩散模型）大幅降低了生成成本，但现有的 RL 方法存在一个关键假设：奖励模型必须可微，以便通过反向传播计算梯度。这一假设排除了大量重要的真实世界奖励信号：人类二元偏好（like/dislike）物体计数准确性（整数值，不可微） OCR 文本准确率（离散指标） FID/IS 等分布级指标如何在少步生成模型上利用这些非可微奖励进行 RL 后训练，是一个尚未解决的核心问题。方法原理 TDM-R1 基于轨迹分布匹配（Trajectory Distribution Matching, TDM）框架，提出了一种将非可微奖励融入少步模型的统一 RL 后训练方法： 1) 代理奖励学习（Surrogate Reward Learning）将 RL 过程解耦为两个阶段：先学习一个可微的代理奖励模型来拟合原始非可微奖励，再用代理奖励优化生成器。代理奖励使用轻量级 MLP 头接在特征提取器上，通过对比学习训练，使其排序与真实奖励高度一致。定期用真实非可微奖励校准代理奖励，防止偏移。 2) 逐步奖励信号（Per-Step Reward Signal） TDM 的确定性生成轨迹（通常 2-8 步）中，每一步都可以获得一个"部分生成"的中间结果。设计逐步奖励：对每个中间状态通过快速解码预估最终输出，计算预估奖励作为当步的奖励信号。这种细粒度的奖励分配比仅在最终步给出奖励更有效，降低了信用分配问题的难度。 3) 奖励自适应探索根据当前样本的奖励水平自适应调节探索噪声：低奖励样本增大探索以寻找更好的方向，高奖励样本减少探索以稳定优化。创新点首个通用 RL 后训练方法支持少步模型 + 非可微奖励：打破了"可微奖励"的假设限制。代理奖励学习 + 在线校准：兼顾了梯度可用性和奖励准确性。逐步奖励分配：解决了少步模型中奖励信号稀疏的信用分配问题。在文本渲染、视觉质量、偏好对齐三类任务上验证。实验结果在文本渲染任务上（OCR 准确率作为非可微奖励），TDM-R1 使 4 步模型的 OCR 准确率从 31.2% 提升至 62.7%（+101%）。在 HPSv2 偏好对齐上，4-NFE 的 TDM-R1 达到 28.6，超越 100-NFE 的基线模型 (27.8)。成功扩展到最新的 Z-Image 模型，仅用 4 步推理即持续超越其 100 步和少步变体。与仅支持可微奖励的 ReFL 和 DDPO 相比，TDM-R1 在非可微奖励设定下领先 15-30%。 6. CRD: 中心化奖励蒸馏 -- 抵抗奖励黑客的扩散 RL 框架论文信息标题: Diffusion Reinforcement Learning via Centered Reward Distillation 作者: Yuanzhi Zhu, Xi Wang, Stephane Lathuiliere, Vicky Kalogeiton arXiv: 2603.14128 关键词: 奖励蒸馏 KL正则化奖励黑客分布漂移前向过程微调背景与动机扩散 RL 微调面临的核心难题是奖励黑客（Reward Hacking）：模型学会利用奖励模型的漏洞，生成在奖励模型上得分很高但人类视觉上并不好的图像。例如，过度饱和的颜色、不自然的高对比度等。现有方法的两大流派各有弊端：轨迹级方法（DPPO, DDPO）：内存消耗大、梯度方差高。前向过程方法（DRaFT, ReFL）：收敛快但容易发生分布漂移，导致奖励黑客。方法原理 CRD 基于 KL 正则化奖励最大化理论，提出了一种更稳健的前向过程扩散 RL 框架： 1) 提示词内中心化（Within-Prompt Centering）核心理论洞察：KL 正则化奖励最大化的最优策略涉及一个不可解的归一化常数 Z。 CRD 发现，通过在同一 prompt 的多个样本间做中心化（减去均值），归一化常数会自然抵消，得到一个适定的奖励匹配目标。这使得 CRD 无需显式估计归一化常数，避免了额外的近似误差。 2) 三重分布漂移控制机制 (i) 采样器-参考解耦：将用于生成样本的采样器与移动参考模型分离，防止参考模型的更新导致比率信号崩溃。 (ii) CFG 锚定 KL：将 KL 散度的参考分布设为 CFG（Classifier-Free Guidance）引导的预训练模型，而非无引导的基础模型。这确保优化目标与推理时的语义一致。 (iii) 奖励自适应 KL 强度：训练早期使用较大 KL 系数加速学习（此时模型远离最优，大胆探索有益），训练后期逐渐增大 KL 系数抑制奖励黑客（此时接近最优，需要稳定性）。创新点理论优雅：通过中心化消除不可解归一化常数，将 KL 正则化奖励最大化转化为可实操的目标。三重防线对抗奖励黑客：采样器-参考解耦、CFG 锚定、自适应 KL 强度协同工作。 CFG 锚定的创新性：传统方法锚定无 CFG 的基础模型，CRD 认识到推理时都使用 CFG，因此应该锚定 CFG 引导的分布。实验结果在 GenEval 上实现 0.83 的综合得分，与 SOTA 持平。关键优势在于抗奖励黑客能力：在 HPSv2 上获得 28.5 的同时，FID 仅增加 2.3（对比 DPPO 的 FID 增加 8.7、DRaFT 的 FID 增加 5.1）。 OCR 文本渲染准确率提升 +23.1 pp。在 ImageReward 和 PickScore 等未见过的偏好指标上，CRD 的优化效果同样保持（证明非奖励黑客）。 7. SOLACE: 内在自置信奖励驱动的 T2I 后训练 (CVPR 2026) 论文信息标题: Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards 作者: Seungwook Kim, Minsu Cho arXiv: 2603.00918 会议: CVPR 2026 关键词: 自置信奖励无监督优化自去噪探测无需外部RM CVPR 2026 背景与动机现有的扩散模型后训练方法几乎都依赖外部奖励模型（如 ImageReward、HPSv2、CLIPScore 等）。然而：外部奖励模型本身存在偏差和幻觉。训练和维护奖励模型需要额外成本。过度优化外部奖励容易导致奖励黑客。一个自然的问题是：能否利用模型自身的内在信号来指导优化，完全不需要外部奖励模型？方法原理 SOLACE 提出了一种基于自置信度（Self-Confidence）的内在奖励信号： 1) 自去噪探测（Self-Denoising Probe）核心机制：对一张生成的图像注入一定量的噪声，然后让模型自己尝试恢复原图。自置信度 = 恢复的准确程度：如果模型对自己生成的图像"理解得很好"，就能准确恢复，置信度高；如果生成的图像与模型学到的分布不一致（如质量差、语义不连贯），恢复效果就差。数学上，自置信度与模型在该样本处的似然估计成正比。 2) 标量奖励转化将自去噪的重建误差转化为标量奖励分数：重建误差越小，奖励越高。使用多个噪声水平进行探测，取平均值以获得更稳定的估计。 3) 完全无监督的偏好优化利用自置信度奖励进行 GRPO 风格的优化，无需任何外部数据集、标注员或奖励模型。高置信度的生成结果被强化，低置信度的被抑制。创新点首个完全无外部奖励的扩散模型后训练方法：打开了"自监督偏好对齐"的新方向。自置信度信号的物理直觉：模型更容易恢复"好的"图像（与训练分布一致），提供了一种自然的质量度量。与外部奖励互补：SOLACE 与外部奖励结合使用时效果更好，且能缓解奖励黑客。零额外推理成本：自去噪探测仅在训练时使用，推理时完全不增加开销。实验结果仅使用内在奖励，在 GenEval 组合生成得分提升 +0.08（从 0.71 到 0.79）。文本渲染准确率提升 +15.3 pp。 SOLACE + 外部奖励的组合方案达到 0.85 GenEval 得分，为所有方法中最高。将 SOLACE 与 ImageReward 结合时，奖励黑客指标（FID 增量）从 ImageReward 单独使用时的 +6.2 降至 +1.8。 8. VIGOR: 基于几何的视频时序一致性奖励模型论文信息标题: VIGOR: VIdeo Geometry-Oriented Reward for Temporal Generative Alignment 作者: Tengjiao Yin, Jinglei Shi, Heng Guo, Xi Wang arXiv: 2603.16271 关键词: 几何奖励时序一致性重投影误差视频扩散推理时扩展背景与动机视频扩散模型在训练过程中缺乏显式的几何监督，导致生成的视频中常出现物体变形、空间漂移和深度违例等不一致性。现有的视频奖励模型主要基于语义（如 VQAScore、CLIPScore）或整体美学评估，无法捕捉帧间的几何一致性。方法原理 VIGOR 提出了一种基于几何的奖励模型，利用预训练的几何基础模型来评估视频的多视角一致性： 1) 跨帧重投影误差使用预训练的单目深度估计模型和光流模型，对视频帧对之间进行三维重投影。逐点计算重投影误差（而非像素级对比），得到更符合物理规律的误差度量。优势：逐点方式对纹理和光照变化更鲁棒，不会被像素强度差异干扰。 2) 几何感知采样过滤低纹理区域和非语义区域（如天空、纯色背景），将评估集中在具有可靠对应关系的几何有意义区域。使用特征匹配置信度作为权重，可靠区域的误差权重更大。 3) 双路径应用训练后微调：对双向视频模型使用 VIGOR 奖励进行 SFT 或 RL 后训练。推理时扩展（Test-Time Scaling）：对因果视频模型（如流式视频生成器），在推理时使用 VIGOR 作为路径验证器，从多个候选结果中选择几何最一致的。创新点首个基于物理几何约束的视频生成奖励模型：超越了纯语义/美学评估的局限。逐点误差计算：比像素级指标更鲁棒，对光照和纹理变化不敏感。推理时扩展的即插即用方案：无需重训练模型，通过推理时选择提升开源视频模型质量。兼容多种视频生成架构：双向模型（后训练）和因果模型（推理时扩展）均适用。实验结果在 VBench 动态一致性指标上提升 +5.8%。物体变形率从基线的 23.7% 降至 11.4%（减少 52%）。推理时扩展方案：在 Open-Sora 上，使用 VIGOR 选择最优帧序列，VBench 得分提升 +3.2 而无需任何额外训练。与 VQAScore 等语义奖励正交互补：两者结合可进一步提升 +1.5。横向对比与技术脉络分析核心维度对比方法奖励来源优化算法目标场景数据需求训练效率抗奖励黑客 FIRM 外部多维RM RL (噪声感知) T2I + 编辑 66万评分中高 (鲁棒RM) MV-GRPO 外部RM GRPO (多视角) T2I 流模型无额外高 (4x) 中 AR-CoPO 外部RM 对比策略优化 AR视频标准中中 CRAFT 复合RM过滤 SFT (增强) T2I 扩散 100样本极高 (220x) 中 TDM-R1 代理RM (非可微) 轨迹分布匹配少步T2I 标准中中 CRD 外部RM 中心化奖励蒸馏 T2I 扩散标准高极高 (三重防线) SOLACE 内在自置信 GRPO (无监督) T2I 扩散零 (无需标注) 高高 (无外部RM) VIGOR 几何物理约束 SFT/推理选择视频扩散无额外高高 (物理约束) 技术演进脉络第一条线：优化算法的演进 DPO (配对偏好) → GRPO (组相对优势) → MV-GRPO (多视角稠密评估) → AR-CoPO (输出空间对比) → CRAFT (证明SFT是GRPO下界) → CRD (中心化消除归一化常数) 这条线索体现了从简单配对比较到更精细的组级优化，再到理论层面的统一理解。CRAFT 的发现尤为重要：它证明了精心筛选数据后的 SFT 本质上就是 GRPO 的一种近似，为实践者提供了"大道至简"的选择。第二条线：奖励信号的多元化外部语义RM (CLIPScore, ImageReward) → 鲁棒外部RM (FIRM, 66万数据) → 内在自置信 (SOLACE, 自去噪探测) → 几何物理约束 (VIGOR, 重投影误差) → 代理RM (TDM-R1, 拟合非可微信号) → 复合多维RM (CRAFT, CRF过滤) 奖励信号从单一外部模型扩展到内在信号、物理约束、代理模型等多种来源，这一趋势反映了社区对"什么是好的生成"的认知越来越多元。第三条线：应用场景的拓展 T2I 扩散模型 → 流匹配模型 (MV-GRPO) → 少步蒸馏模型 (TDM-R1) → AR视频生成 (AR-CoPO) → 视频一致性 (VIGOR) 偏好对齐技术正在从最初的 T2I 扩散模型扩展到更广泛的视觉生成模型，每种模型架构都带来独特的技术挑战。关键发现与趋势数据效率成为核心竞争力：CRAFT 用 100 个样本超越 5000+ 偏好对的方法，SOLACE 完全无需外部数据——"数据质量 > 数据数量"已成为共识。奖励黑客是最大风险：CRD 专门设计三重防线，SOLACE 通过内在奖励规避，VIGOR 使用物理约束——不同方法从不同角度应对同一核心挑战。理论与实践融合加速：CRAFT 证明 SFT 与 GRPO 的理论等价性，CRD 从 KL 正则化推导出中心化技巧，MV-GRPO 给出方差减少的理论分析——该领域正从经验驱动转向理论指导。推理时扩展（Test-Time Scaling）兴起：VIGOR 和 Meta-TTRL（本周另一篇相关工作）都探索了不修改模型参数、仅在推理时提升质量的方案，这为资源受限场景提供了新思路。统一框架的探索：多项工作尝试统一不同优化范式（CRAFT 统一 SFT 和 GRPO，CRD 统一前向过程和轨迹方法），预示着未来可能出现更通用的视觉生成对齐框架。其他相关工作简述本周还有多篇相关工作值得关注： GDPO-SR (2603.16769): 将 GRPO 原理融入 DPO 用于一步超分辨率，引入属性感知奖励函数针对平滑/纹理区域差异化评估。 LibraGen (2603.13506): 主题驱动视频生成中的 DPO 应用，提出 Consis-DPO 和 Real-Fake DPO 两种定制化偏好优化管线。 Meta-TTRL (2603.15724): 统一多模态模型的测试时强化学习，利用模型内在元认知信号进行推理时自我改进。 Correlation-Weighted Multi-Reward (2603.18528): 组合生成中的多奖励协调优化，通过相关性加权平衡竞争概念间的奖励冲突。 V2A-DPO (2603.11089): 视频到音频生成的 DPO 框架，提出 AudioScore 综合评分系统。总结与展望本期专题梳理了视觉生成模型偏好对齐与 RL 后训练的最新进展。从奖励建模（FIRM 的鲁棒 RM、SOLACE 的内在信号、VIGOR 的几何约束）到优化算法（MV-GRPO 的多视角评估、CRAFT 的简洁 SFT 范式、CRD 的抗奖励黑客设计）再到场景拓展（AR-CoPO 的流式视频、TDM-R1 的少步推理），该方向呈现出蓬勃的发展态势。未来值得关注的方向：多模态统一对齐：将偏好对齐扩展到图像+视频+音频的统一生成模型。在线人类反馈：从离线偏好数据集转向在线、实时的人类反馈闭环。可解释奖励：让用户和开发者理解"为什么这张图/这段视频被认为是好的"。超长视频对齐：随着视频生成长度增加，如何在数分钟长度的视频上进行有效的偏好对齐。安全对齐：在提升质量的同时，确保生成内容的安全性和合规性。本期专题由人工智能炼丹师整理，更多 AIGC 前沿动态请关注 jefxiong.cn
- 2026年03月21日
- 47 阅读
- 0 评论
- 0 点赞

Jefxiong

65 文章数

8 评论量

人生倒计时

标签云

粤ICP备2021042327号