标签对齐下的文章 - 人工智能炼丹师 - AIGC论文速读

标签搜索

Jefxiong

累计撰写 62 篇文章
累计收到 8 条评论

搜索到 2 篇与对齐的结果

2026-03-24
AIGC 每日速读|2026-03-24|CubiD高维离散扩散|扩散通用加速|FoleyDirector V2A| AIGC 视觉生成领域 · 每日论文解读 (2026-03-24) 人工智能炼丹师整理 | 共 12 篇论文 | 重点深度解读 3 篇今日核心看点高维离散扩散统一生成理解通用扩散加速 V2A时序控制个性化视频生成今日概览今日 arXiv cs.CV 视觉生成相关论文共 12 篇，重点解读 3 篇。方向分布：图像生成与编辑 — 4 篇（CubiD、妆容迁移、I2I整流流、统一多模态）视频生成 — 2 篇（LumosX 个性化、MME-CoF-Pro 评测）音频生成 — 3 篇（FoleyDirector V2A、Borderless Long Speech、MOSS-TTSD）生成模型加速 — 1 篇（时间步感知块掩码）评测与质量评估 — 2 篇（TATAR 统一IQA+IAA、PGD-EIQA 去偏）含 2 篇 CVPR 2026 + 1 篇 ICLR 2026 重点论文深度解读 1. CubiD: Cubic Discrete Diffusion for High-Dim Tokens 首个高维离散扩散生成 | HKU + Google + ByteDance | arXiv:2603.19232 关键词：离散扩散, 高维表示, 统一生成理解, ImageNet SOTA 研究动机离散 Token 视觉生成因能与语言模型共享统一的 Token 预测范式而备受关注，但当前方法局限于低维潜在 Token（通常 8-32 维），牺牲了对理解任务至关重要的语义丰富性。高维预训练表示（768-1024 维）理论上可弥补这一鸿沟，然而其离散化生成面临根本性挑战——维度爆炸导致码本大小和生成步数均不可控。方法原理 CubiD 提出在高维离散表示上进行「细粒度掩码扩散」。核心思想是：对高维离散表示的任意维度、任意位置都可以独立掩码和预测。具体包括：(1) 将预训练的 768/1024 维连续表示通过残差向量量化离散化；(2) 在扩散过程中，每个空间位置的每个维度都可被独立掩码，模型从部分观测中预测缺失维度；(3) 这使模型能学习空间位置内部和跨位置的丰富关联，且生成步数固定为 T（T 远小于 h×w×d），不随维度增长；(4) 从 900M 扩展到 3.7B 参数展现出强 Scaling 行为。核心创新首个面向高维（768-1024维）表示的离散扩散生成模型细粒度维度级掩码策略：任意维度任意位置可独立掩码预测生成步数与特征维度解耦（T << h×w×d）验证离散化 Token 同时支持理解和生成任务 M-3.7B 参数强 Scaling 行为实验结果 ImageNet-256 上达到离散生成方法 SOTA，从 900M 到 3.7B 展现强 Scaling 行为。关键验证：离散化后的 Token 保留了原始表示的理解能力，证明同一组离散 Token 可同时服务于理解和生成任务。代码已开源。方法流程预训练表示 — 768/1024维连续特征（如DINOv2/CLIP）残差向量量化 — RVQ离散化为高维Token序列细粒度维度掩码 — 任意位置任意维度独立掩码条件扩散预测 — 从部分观测预测缺失维度位置内+跨位置关联 — 同时建模局部和全局依赖固定T步生成 — 步数与维度解耦 T<<hwd 技术脉络核心问题：离散 Token 生成局限于低维（8-32维），无法利用高维预训练表示前序工作及局限： MaskGIT (Chang 2022)：掩码图像建模范式，但限于低维 VQ-VAE Token MAGVIT-v2 (Yu 2024)：改进离散 Tokenizer，仍为 32 维以下 MAR (Li 2024)：掩码自回归模型，连续/离散混合但维度受限 LlamaGen (Sun 2024)：用 LLM 架构做视觉生成，仍依赖低维码本与前序工作的本质区别： CubiD 首次突破维度限制，在 768-1024 维上实现细粒度维度级掩码扩散，且生成步数不随维度增长技术演进定位：开辟了「高维离散扩散」新赛道，为 vision-language 统一架构提供了新范式可能的后续方向：更高分辨率（512+）的高维离散生成视频领域的高维离散扩散与 LLM 的原生融合统一架构批判性点评实验评估：在 ImageNet-256 上对比了多种离散生成方法，展示了 Scaling 行为。但缺少 FID/IS 等具体数值对比表，也未在 T2I 场景下与 SDXL/DALL-E 3 等连续方法直接对比。新颖性：首次将离散扩散扩展到高维表示（768-1024维），维度级掩码策略新颖度高。但 RVQ 离散化本身是已有技术，核心贡献在于将掩码扩散泛化到高维。可复现性：代码已开源（GitHub），数据集为公开的 ImageNet。但 3.7B 模型的训练成本可能限制社区复现。影响力：可能推动统一 vision-language 架构的发展。如果高维离散 Token 真正兼顾理解和生成，将对多模态基础模型产生深远影响。 2. Timestep-Aware Block Masking for Diffusion Acceleration 架构无关扩散加速 | 武汉大学 | arXiv:2603.19939 关键词：扩散加速, 块掩码, 架构无关, 特征复用研究动机扩散概率模型在图像生成方面取得了巨大成功，但迭代去噪的特性导致推理延迟较高。现有加速方法要么需要全链反向传播（内存开销大），要么绑定特定架构。如何实现一种内存高效、架构无关的扩散加速方法是核心问题。方法原理提出时间步感知块掩码（Timestep-Aware Block Masking）框架。核心思路：对预训练扩散模型的计算图进行逐时间步优化。(1) 学习时间步特异性掩码（per-timestep masks），在每个推理阶段动态决定哪些 Block 执行完整计算、哪些通过特征复用绕过；(2) 独立优化每个时间步的掩码（而非全链反向传播），确保内存高效训练；(3) 引入时间步感知损失缩放机制，在敏感的去噪阶段优先保证特征保真度；(4) 辅以知识引导的掩码修正策略，修剪冗余的时空依赖关系。核心创新架构无关：同一框架适用于 DDPM、LDM、DiT、PixArt 四种主流架构逐时间步独立优化掩码，避免全链反向传播的高内存开销时间步感知损失缩放：敏感阶段保真度优先知识引导掩码修正：智能修剪冗余时空依赖实验结果在 DDPM、LDM、DiT 和 PixArt 四种架构上均展示了显著的效率提升。将去噪过程视为一系列优化的计算路径，在采样速度和生成质量之间实现了优越的平衡。代码将公开发布。方法流程预训练扩散模型 — 支持DDPM/LDM/DiT/PixArt 逐时间步掩码学习 — 独立优化每步的Block选择损失缩放机制 — 敏感阶段高权重保真度优先掩码修正策略 — 知识引导修剪冗余依赖动态Block跳过 — 低贡献Block特征复用加速推理输出 — 速度-质量最优平衡技术脉络核心问题：扩散模型推理慢，现有加速方法绑定特定架构或需高内存全链优化前序工作及局限： DDIM (Song 2021)：减少采样步数的非马尔可夫加速 DPM-Solver (Lu 2022)：高阶 ODE 求解器加速采样 DeepCache (Ma 2024)：缓存 U-Net 特征跨步复用，绑定 U-Net 架构 Token Merging (Bolya 2023)：合并冗余 Token 减少计算量与前序工作的本质区别： Timestep-Aware Block Masking 是架构无关的：同一框架直接适用于 DDPM/LDM/DiT/PixArt，且通过逐步独立优化避免全链反向传播的内存瓶颈技术演进定位：在扩散加速领域建立了首个「架构无关」通用框架的先例可能的后续方向：与步数蒸馏方法结合实现多维加速扩展到视频扩散模型在移动端部署场景的适配批判性点评实验评估：覆盖 DDPM/LDM/DiT/PixArt 四种架构，实验全面性好。但缺少与 DeepCache、FORA 等最新 cache 方法的定量对比。加速比和质量损失的 trade-off 曲线有待补充。新颖性：逐时间步独立优化掩码思路清晰，时间步感知损失缩放有理论依据。但 Block 跳过/特征复用的整体思路与 Token Merging、DeepCache 类似，差异化主要在于掩码学习策略。可复现性：代码承诺公开但尚未发布。方法依赖少量校准数据训练掩码，流程相对简单可复现。影响力：架构无关的特性使其具有广泛适用性。若能在实际产品级部署中验证（如 SDXL/Flux），工程价值将非常高。 3. FoleyDirector: Fine-Grained V2A Temporal Control 细粒度 V2A 时序控制 | CVPR 2026 | arXiv:2603.19857 关键词： V2A, 时序控制, DiT音频, CVPR 2026 研究动机视频到音频（V2A）方法已能合成高质量音频，但在多事件场景或视觉线索不足时（小区域、画外音、遮挡物体），细粒度时序控制仍是难题。现有方法无法精确指定每个时间段应生成什么声音，限制了创作灵活性。方法原理 FoleyDirector 是首个在 DiT 基架构上实现精确时序引导的 V2A 生成框架。核心创新包括：(1) 结构化时序脚本（STS）：将音频描述分解为对应短时间片段的字幕集合，提供丰富的时序信息；(2) 脚本引导时序融合模块：使用 Temporal Script Attention 将 STS 特征与视频特征连贯融合；(3) 双帧声音合成（Bi-Frame Sound Synthesis）：并行生成画面内和画面外音频，处理复杂多事件场景；(4) 构建 DirectorSound 数据集和 DirectorBench 评测基准。核心创新首个在 DiT 基 V2A 模型上实现精确时序引导结构化时序脚本（STS）提供细粒度音频描述双帧声音合成：画内+画外音频并行生成 DirectorSound 数据集 + DirectorBench 评测实验结果实验表明 FoleyDirector 在保持高音频保真度的同时大幅提升了时序可控性。在 VGGSoundDirector 和 DirectorBench 上展示了 SOTA 的时序控制能力，用户可像拟音导演一样精确控制每个时间段的声音生成。CVPR 2026 接收。方法流程输入视频+时序脚本 — 视频帧序列+STS结构化字幕视觉特征提取 — 编码视频帧的视觉信息 STS时序编码 — 结构化脚本→时间段级嵌入 Script-Guided融合 — Temporal Script Attention 双帧声音合成 — 画内+画外音频并行生成高保真时序音频 — 精确对齐的多事件音频输出技术脉络核心问题： V2A 生成缺乏细粒度时序控制，多事件场景和画外音难以处理前序工作及局限： SpecVQGAN (Iashin 2023)：音频频谱 VQ-GAN 生成，无时序控制 Diff-Foley (Luo 2024)：扩散模型 V2A，但仅全局条件控制 Frieren (Wang 2024)：V2A 扩散模型，改善音频-视频同步 AC-Foley (2025)：参考音频引导 V2A，但缺乏精确时间段控制与前序工作的本质区别： FoleyDirector 通过结构化时序脚本（STS）首次在 DiT 基 V2A 模型上实现时间段级精确控制，并创新性地并行生成画内和画外音频技术演进定位：将 V2A 从「全局条件生成」推进到「导演级时序控制」，显著拓展了实用价值可能的后续方向：与视频生成模型联合训练实现端到端 V2AV 交互式拟音编辑工具扩展到音乐配乐的时序控制批判性点评实验评估：构建了 DirectorSound 数据集和 DirectorBench 评测基准，评估维度全面。CVPR 2026 接收说明同行认可度高。但 V2A 领域尚缺乏统一公认的客观指标。新颖性：首次在 DiT 基 V2A 模型上实现精确时序引导，STS 设计优雅。双帧声音合成（画内+画外）是实际应用中的重要创新。但依赖结构化文本输入增加了使用门槛。可复现性：提出了新数据集但未明确是否公开。方法依赖预训练 DiT V2A 基模型，复现需要一定基础设施。影响力：对影视后期制作和自动配音有直接应用价值。STS 理念可泛化到其他时序生成任务（如音乐生成、视频编辑）。批判性点评精选 1. 高维离散 = 统一架构？ CubiD 验证高维离散 Token 兼顾理解和生成，但 3.7B 模型的训练成本和实际 T2I 质量仍有待验证 2. 架构无关的代价 Block Masking 覆盖四种架构值得称赞，但每种架构的最优掩码配置不同，通用性是否以牺牲极致性能为代价？ 3. 时序脚本的使用门槛 FoleyDirector 的 STS 需要手工编写结构化脚本，大规模自动化场景下的可用性值得关注其余论文 · 贡献与效果总结 # 论文关键词主要贡献效果 1 LumosX (Relate Any Identities with Their Attributes for Personalized Video Generation) 个性化视频生成 · 身份对齐 · ICLR 2026 提出关系自注意力和关系交叉注意力机制，在多对象个性化视频生成中实现精确的身份-属性对齐。通过 MLLM 推断对象间依赖关系，强化群组内聚性和跨对象分离。ICLR 2026。在多对象个性化视频生成基准上达到 SOTA，身份一致性和语义对齐显著优于现有方法 2 Borderless Long Speech (Borderless Long Speech Synthesis) 长语音合成 · 多说话人 · Agentic TTS 提出无边界长语音合成框架，支持多说话人对话（最多5人）、零样本语音克隆、长达60分钟单次合成。创新的 Global-Sentence-Token 多级标注体系和 Chain-of-Thought 推理增强复杂条件下的指令遵循。支持60分钟单次合成、5人多方对话，原生 Agentic 设计实现从 Text2Speech 到无边界长语音合成的范式扩展 3 MOSS-TTSD (Text to Spoken Dialogue Generation) 对话合成 · 多方语音 · 复旦首个面向对话场景的语音合成模型，支持多语言（中英文）、多方对话（最多5人）、零样本语音克隆。增强长上下文建模实现 60 分钟单次生成。提出 TTSD-eval 客观评测框架。复旦大学团队。在对话合成的说话人归属准确率和相似度上超越开源和商业基线，支持播客、动态解说等应用场景 4 FRAM (Diffusion-Based Makeup Transfer with Facial Region-Aware Makeup Features) 妆容迁移 · 区域感知 · CVPR 2026 提出面部区域感知妆容特征（FRAM）：通过 GPT-o3 合成标注数据微调妆容 CLIP 编码器，使用可学习 Token 查询区域级妆容特征。ControlNet Union 同时编码源图像及 3D 网格实现身份保持。CVPR 2026。在区域可控性和妆容迁移质量上验证了显著优势，支持眼妆/唇妆等细粒度区域独立编辑 5 I2I-RFR (Improving Image-to-Image Translation via a Rectified Flow Reformulation) 整流流 · I2I翻译 · 即插即用将标准 I2I 回归网络重新表述为连续时间传输模型：仅扩展输入通道+简单 t 重加权损失，诱导整流流解释，推理时通过 ODE 渐进细化（仅需3步）。无需蒸馏即可显著提升感知质量。在多个 I2I 翻译和视频恢复任务上普遍提升性能，尤其在感知质量和细节保留方面收益明显 6 SeGroS (Enhancing Alignment for Unified Multimodal Models via Semantically-Grounded Supervision) 统一多模态 · 对齐增强 · 语义监督解决统一多模态模型（UMM）中粒度不匹配和监督冗余问题。提出视觉定位图构建互补监督信号：语义视觉提示补偿文本稀疏性 + 语义定位的损坏输入将重建损失限制在核心文本对齐区域。在 GenEval/DPGBench/CompBench 上显著提升 UMM 的生成保真度和跨模态对齐 7 TATAR (One Model, Two Minds: Task-Conditioned Reasoning for Unified IQA and Aesthetic Assessment) 统一IQA+IAA · 非对称奖励 · GRPO 揭示统一 IQA 和 IAA 中的「推理不匹配」和「优化不匹配」。提出 TATAR 框架：快慢任务推理构建 + 两阶段 SFT+GRPO 学习 + 非对称奖励（IQA 高斯整形/IAA 瑟斯顿排名）。 8个基准上均优于统一基线，与特定任务专用模型竞争力相当，美学评估训练更稳定 8 MME-CoF-Pro (Evaluating Reasoning Coherence in Video Generative Models) 视频生成评测 · 推理连贯性 · Benchmark 提出视频生成模型推理连贯性评测基准：303 样本/16 类别，从视觉逻辑到科学推理。引入「推理分数」评估中间步骤，三种设置（无提示/文本/视觉）控制研究。评测 7 个模型揭示推理连贯性与生成质量解耦。发现视频生成模型推理连贯性较弱且与质量解耦；文本提示虽提高正确性但引入幻觉；视觉提示在细粒度感知上仍困难 9 PGD-EIQA (Preference-Guided Debiasing for No-Reference Enhancement Image Quality Assessment) 图像质量评估 · 去偏 · 偏好引导通过监督对比学习构建连续增强偏好嵌入空间，估计并去除质量表示中的增强诱导干扰，使模型关注算法不变的感知质量线索。两阶段训练：偏好空间学习 → 去偏质量预测。在公共 EIQA 基准上有效缓解算法诱导偏差，跨增强算法泛化能力显著优于现有方法趋势观察离散表示生成 — 高维 Token 离散扩散首次突破，统一理解+生成成为新范式扩散加速通用化 — 架构无关加速框架覆盖 DDPM/LDM/DiT/PixArt 全系列音频生成精细化 — V2A 和对话 TTS 均走向细粒度时序控制和长上下文建模人工智能炼丹师整理 | 2026-03-24
- 2026年03月24日
- 2 阅读
- 0 评论
- 0 点赞
2026-03-21
AIGC 周末专题深度解读：RL后训练进展|2026-03-21|偏好对齐|SOLACE|CRAFT|CRD|VIGOR| AIGC 周末专题深度解读 | 2026-03-21 | 视觉生成模型的偏好对齐与强化学习后训练人工智能炼丹师整理本期专题聚焦视觉生成模型的偏好对齐与强化学习后训练（Preference Alignment & RL Post-Training for Visual Generation），深度解读 8 篇最新论文，并对该方向的技术演进脉络进行系统性横向对比。专题概述随着扩散模型（Diffusion Models）和流匹配模型（Flow Matching Models）在图像/视频生成领域取得突破性进展，如何让生成结果更好地符合人类偏好成为当前研究的核心焦点。借鉴大语言模型领域 RLHF（Reinforcement Learning from Human Feedback）的成功经验，研究者们正在积极探索将强化学习、直接偏好优化（DPO）、组相对策略优化（GRPO）等后训练技术应用于视觉生成模型。本周（2026年3月14日-21日），该方向涌现出大量高质量论文，涵盖了从奖励模型构建、训练算法设计、到具体场景应用的完整技术栈。本期专题选取 8 篇代表性工作进行深度解读，系统梳理该方向的技术脉络与发展趋势。核心技术线索：奖励信号来源：外部奖励模型 vs 内在自置信信号 vs 几何物理约束优化算法演进：DPO -> GRPO -> 多视角GRPO -> 对比策略优化 -> 中心化奖励蒸馏应用场景拓展：T2I生成 -> 视频生成 -> 图像超分 -> AR视频 -> 少步推理模型关键挑战：奖励黑客（Reward Hacking）、分布漂移、计算效率、非可微奖励 1. FIRM: Trust Your Critic -- 鲁棒奖励建模与强化学习的忠实图像编辑与生成论文信息标题: Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation 作者: Xiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding 等 arXiv: 2603.12247 关键词: 奖励模型鲁棒RL 图像编辑 T2I生成数据管线背景与动机强化学习（RL）已成为提升图像编辑和文本到图像（T2I）生成质量的重要范式。然而，当前的奖励模型（Reward Model）作为 RL 中的"评论家"，往往存在幻觉（hallucination）问题——给出不准确的评分，从而误导优化过程。这一问题在图像编辑场景中尤为严重：奖励模型可能对编辑后图像的忠实度评估不准确，导致生成结果偏离编辑指令。方法原理 FIRM 框架包含两大核心组件： 1) 鲁棒奖励建模定制化数据策管线（Data Curation Pipeline）：针对图像编辑和 T2I 生成分别设计数据收集流程，构建高质量的评分数据集。编辑任务收集了涵盖颜色修改、风格迁移、物体添加/删除等多种编辑类型的 66 万条评分数据。多维度评估：奖励模型同时考虑文本对齐度、编辑忠实度、图像质量等多个维度，避免单一指标的片面性。对比学习增强：通过正负样本对比学习，提升奖励模型对微妙质量差异的辨别能力。 2) 鲁棒强化学习训练噪声感知训练策略：在 RL 训练过程中，显式建模奖励信号中的噪声，通过置信度加权降低不可靠评分的影响。多奖励聚合：将多个维度的奖励信号进行加权融合，动态调整各维度权重以平衡不同目标之间的trade-off。正则化约束：引入 KL 散度正则化防止模型在优化过程中偏离预训练分布过远。创新点首个系统性解决奖励模型幻觉问题的框架：不仅改进奖励模型本身的准确性，还在 RL 训练阶段引入鲁棒性机制。 66万条高质量评分数据集开源：为社区提供了标准化的图像编辑/生成质量评估数据。统一框架同时适用于图像编辑和 T2I 生成：两个任务共享奖励建模架构，仅在数据策管线上做差异化。实验结果在图像编辑任务上，FIRM 使 InstructPix2Pix 模型在 EditBench 上的编辑准确率提升 18.7%。在 T2I 生成任务上，GenEval 综合得分从 0.63 提升至 0.79，超越 DALL-E 3 和 SDXL 基线。奖励模型本身在 ImageReward 测试集上的 Kendall's Tau 相关性从 0.52 提升至 0.68。 2. MV-GRPO: 多视角组相对策略优化 -- 从稀疏到稠密的流模型对齐论文信息标题: From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space 作者: Jiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tianyi Wei 等 arXiv: 2603.12648 关键词: GRPO 流模型多视角评估条件空间增强 T2I对齐背景与动机组相对策略优化（GRPO）已成为文本到图像流模型偏好对齐的强大框架。然而，标准 GRPO 范式存在一个根本性限制：单视角稀疏评估——对一组生成样本仅使用单一条件（prompt）进行评估，无法充分探索样本间的关系，限制了对齐效果的上限。具体来说，给定一个 prompt，GRPO 生成 N 个候选图像，然后通过奖励模型评分并计算组相对优势。但这种方式下，每个样本只从一个角度被评估，奖励信号稀疏且容易受到 prompt 特异性的影响。方法原理 MV-GRPO 提出了条件空间增强（Condition Space Augmentation）策略，将单视角稀疏评估升级为多视角稠密评估： 1) 条件空间增强对原始 prompt 进行多维度改写：语义保持改写（paraphrase）、细节扩充（detail augmentation）、视角变换（perspective shifting）。每个生成样本同时在原始 prompt 和增强 prompt 下进行评估，获得多个奖励分数。 2) 多视角优势估计将每个样本的多视角奖励分数进行聚合，计算更稳定的组相对优势：跨条件一致性加权：对于在不同 prompt 下获得一致高/低分的样本，增大其优势信号强度。条件自适应归一化：不同 prompt 的评分尺度可能不同，通过条件内归一化消除尺度差异。 3) 渐进式探索策略训练初期使用较少的增强条件，随着训练进行逐步增加，避免早期过度约束。创新点首次将多视角评估引入 GRPO 框架：突破了单条件评估的稀疏性瓶颈。条件空间增强无需额外数据：仅通过 prompt 改写即可获得稠密评估信号。理论分析：证明多视角 GRPO 的方差比标准 GRPO 低 O(1/K)（K 为视角数量）。实验结果在 FLUX.1-dev 上，GenEval 综合得分从基线 0.71 提升至 0.84（+18.3%），显著超越标准 GRPO 的 0.78。人类评估显示偏好率达到 72.3%（vs 标准 GRPO 的 58.1%）。在 T2I-CompBench 组合生成指标上，属性绑定准确率从 0.62 提升至 0.76。仅需 500 步训练即可达到标准 GRPO 2000 步的效果，训练效率提升 4x。 3. AR-CoPO: 自回归视频生成的对比策略优化论文信息标题: AR-CoPO: Align Autoregressive Video Generation with Contrastive Policy Optimization 作者: Dailan He, Guanlin Feng, Xingtong Ge, Yi Zhang, Bingqi Ma, Guanglu Song 等 arXiv: 2603.17461 关键词: 自回归视频对比策略优化 RLHF 少步蒸馏流匹配背景与动机流式自回归（Streaming AR）视频生成器结合少步蒸馏可实现低延迟、高质量的视频合成，但通过 RLHF 对齐这类模型面临独特挑战： SDE 探索失效：现有基于 SDE 的 GRPO 方法假设扩散过程有足够的随机性进行探索，但少步 ODE 和一致性模型采样器偏离了标准流匹配 ODE，其短轨迹和低随机性使得中间 SDE 探索无效。初始化敏感：少步模型的生成轨迹极短且确定性强，对初始化噪声高度敏感。帧间一致性：自回归视频生成需要在优化人类偏好的同时保持帧间时序一致性。方法原理 AR-CoPO 提出了一种专为自回归少步视频生成器设计的对比策略优化框架： 1) 输出空间对比探索（Output-Space Contrastive Exploration）放弃在扩散过程中间步骤进行探索的传统方式，直接在输出空间（生成的视频帧）进行对比。对每个时间步生成多个候选帧，通过奖励模型评分后选择最优，同时利用对比损失增大好坏样本间的差距。 2) 自回归感知的奖励传播设计时序一致性奖励：不仅评估单帧质量，还评估帧间过渡的流畅性和一致性。将帧级奖励沿时间轴反向传播，使早期帧的生成策略能考虑到后续帧的质量。 3) 参考策略锚定引入 KL 散度正则化，将优化后的策略锚定在预训练模型附近，防止过度优化导致的模式崩溃。对不同时间步使用自适应 KL 强度：早期帧（构图决定性阶段）使用较强约束，后期帧适当放松。创新点首个将 RLHF 成功应用于流式自回归视频生成器的工作：解决了少步蒸馏模型难以进行 RL 优化的技术瓶颈。输出空间对比范式：避免了中间步骤探索在少步模型上的失效问题。时序感知的奖励传播机制：在优化画面质量的同时保持视频的时序一致性。实验结果在流式 AR 视频生成基线上，VBench 得分从 78.2 提升至 83.7（+7.0%）。人类偏好评估中，AR-CoPO 生成的视频在画面质量和时序一致性两个维度上分别获得 76.4% 和 71.8% 的偏好率。仅需 4 步推理即可达到与 20 步推理 + GRPO 对齐相当的质量。 FVD（Frechet Video Distance）从 198.3 降低至 156.7。 4. CRAFT: 用复合奖励辅助微调轻松对齐扩散模型 (CVPR 2026) 论文信息标题: CRAFT: Aligning Diffusion Models with Fine-Tuning Is Easier Than You Think 作者: Zening Sun, Zhengpeng Xie, Lichen Bai, Shitong Shao, Shuo Yang, Zeke Xie arXiv: 2603.18991 关键词: 复合奖励过滤 SFT GRPO下界数据效率 CVPR 2026 背景与动机当前扩散模型的偏好对齐方法面临两大挑战：数据依赖：SFT 需要昂贵的高质量图像数据；DPO 风格方法依赖大规模偏好数据集，而这些数据集质量往往不一致。计算低效：RL 类方法需要在线生成样本并计算奖励，训练成本高昂。 CRAFT 的核心洞察是：如果能构建一个高质量、一致的小规模训练集，简单的 SFT 就能达到甚至超越复杂的偏好优化方法。方法原理 CRAFT 提出了一种极其简洁但强大的两阶段范式： 1) 复合奖励过滤（Composite Reward Filtering, CRF）对每个 prompt 生成大量候选图像（如 64 张）。使用多个奖励模型从不同维度评分：美学质量、文本对齐、构图合理性、技术质量。将多维奖励分数进行加权融合，选择排名前 1-2 的图像作为训练样本。关键设计：使用相关性去偏（Correlation Debiasing）确保选出的样本在各维度上均衡优秀，而非仅在某一维度极端。 2) 增强 SFT 在过滤后的高质量小数据集上进行标准 SFT 训练。引入两项增强：(a) 噪声调度优化——对高评分样本使用更低的噪声水平；(b) 梯度裁剪——防止个别异常样本主导梯度方向。 3) 理论保证证明 CRAFT 实际上优化了基于组强化学习的下界，从理论上建立了"筛选数据 + SFT"与"GRPO"之间的联系。具体地，CRF 过程等价于 GRPO 中的组相对优势计算，而 SFT 则对应策略更新步骤。创新点仅需 100 个样本即可超越 SOTA 偏好优化方法：数据效率提升 10-100 倍。理论证明 SFT + 数据筛选是 GRPO 的下界优化：为简化的训练范式提供了理论支撑。收敛速度提升 11-220 倍：相较于 DPO 和 GRPO 基线方法。即插即用：无需修改模型架构或推理流程，仅替换训练数据和训练方式。实验结果使用仅 100 个样本的 CRAFT 在 GenEval 上得分 0.82，超越使用 5000+ 偏好对的 Diffusion-DPO（0.76）和标准 GRPO（0.79）。在 HPSv2（Human Preference Score v2）上达到 28.9，超越所有基线。训练时间：CRAFT 仅需 15 分钟（单A100），而 DPO 需要 5.5 小时，GRPO 需要 3.2 小时。在 SDXL 和 SD3.5 两个基座模型上均验证有效。 5. TDM-R1: 用非可微奖励强化少步扩散模型论文信息标题: TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward 作者: Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang arXiv: 2603.07700 关键词: 少步扩散非可微奖励代理奖励学习轨迹分布匹配文本渲染背景与动机少步生成模型（如一致性模型、蒸馏扩散模型）大幅降低了生成成本，但现有的 RL 方法存在一个关键假设：奖励模型必须可微，以便通过反向传播计算梯度。这一假设排除了大量重要的真实世界奖励信号：人类二元偏好（like/dislike）物体计数准确性（整数值，不可微） OCR 文本准确率（离散指标） FID/IS 等分布级指标如何在少步生成模型上利用这些非可微奖励进行 RL 后训练，是一个尚未解决的核心问题。方法原理 TDM-R1 基于轨迹分布匹配（Trajectory Distribution Matching, TDM）框架，提出了一种将非可微奖励融入少步模型的统一 RL 后训练方法： 1) 代理奖励学习（Surrogate Reward Learning）将 RL 过程解耦为两个阶段：先学习一个可微的代理奖励模型来拟合原始非可微奖励，再用代理奖励优化生成器。代理奖励使用轻量级 MLP 头接在特征提取器上，通过对比学习训练，使其排序与真实奖励高度一致。定期用真实非可微奖励校准代理奖励，防止偏移。 2) 逐步奖励信号（Per-Step Reward Signal） TDM 的确定性生成轨迹（通常 2-8 步）中，每一步都可以获得一个"部分生成"的中间结果。设计逐步奖励：对每个中间状态通过快速解码预估最终输出，计算预估奖励作为当步的奖励信号。这种细粒度的奖励分配比仅在最终步给出奖励更有效，降低了信用分配问题的难度。 3) 奖励自适应探索根据当前样本的奖励水平自适应调节探索噪声：低奖励样本增大探索以寻找更好的方向，高奖励样本减少探索以稳定优化。创新点首个通用 RL 后训练方法支持少步模型 + 非可微奖励：打破了"可微奖励"的假设限制。代理奖励学习 + 在线校准：兼顾了梯度可用性和奖励准确性。逐步奖励分配：解决了少步模型中奖励信号稀疏的信用分配问题。在文本渲染、视觉质量、偏好对齐三类任务上验证。实验结果在文本渲染任务上（OCR 准确率作为非可微奖励），TDM-R1 使 4 步模型的 OCR 准确率从 31.2% 提升至 62.7%（+101%）。在 HPSv2 偏好对齐上，4-NFE 的 TDM-R1 达到 28.6，超越 100-NFE 的基线模型 (27.8)。成功扩展到最新的 Z-Image 模型，仅用 4 步推理即持续超越其 100 步和少步变体。与仅支持可微奖励的 ReFL 和 DDPO 相比，TDM-R1 在非可微奖励设定下领先 15-30%。 6. CRD: 中心化奖励蒸馏 -- 抵抗奖励黑客的扩散 RL 框架论文信息标题: Diffusion Reinforcement Learning via Centered Reward Distillation 作者: Yuanzhi Zhu, Xi Wang, Stephane Lathuiliere, Vicky Kalogeiton arXiv: 2603.14128 关键词: 奖励蒸馏 KL正则化奖励黑客分布漂移前向过程微调背景与动机扩散 RL 微调面临的核心难题是奖励黑客（Reward Hacking）：模型学会利用奖励模型的漏洞，生成在奖励模型上得分很高但人类视觉上并不好的图像。例如，过度饱和的颜色、不自然的高对比度等。现有方法的两大流派各有弊端：轨迹级方法（DPPO, DDPO）：内存消耗大、梯度方差高。前向过程方法（DRaFT, ReFL）：收敛快但容易发生分布漂移，导致奖励黑客。方法原理 CRD 基于 KL 正则化奖励最大化理论，提出了一种更稳健的前向过程扩散 RL 框架： 1) 提示词内中心化（Within-Prompt Centering）核心理论洞察：KL 正则化奖励最大化的最优策略涉及一个不可解的归一化常数 Z。 CRD 发现，通过在同一 prompt 的多个样本间做中心化（减去均值），归一化常数会自然抵消，得到一个适定的奖励匹配目标。这使得 CRD 无需显式估计归一化常数，避免了额外的近似误差。 2) 三重分布漂移控制机制 (i) 采样器-参考解耦：将用于生成样本的采样器与移动参考模型分离，防止参考模型的更新导致比率信号崩溃。 (ii) CFG 锚定 KL：将 KL 散度的参考分布设为 CFG（Classifier-Free Guidance）引导的预训练模型，而非无引导的基础模型。这确保优化目标与推理时的语义一致。 (iii) 奖励自适应 KL 强度：训练早期使用较大 KL 系数加速学习（此时模型远离最优，大胆探索有益），训练后期逐渐增大 KL 系数抑制奖励黑客（此时接近最优，需要稳定性）。创新点理论优雅：通过中心化消除不可解归一化常数，将 KL 正则化奖励最大化转化为可实操的目标。三重防线对抗奖励黑客：采样器-参考解耦、CFG 锚定、自适应 KL 强度协同工作。 CFG 锚定的创新性：传统方法锚定无 CFG 的基础模型，CRD 认识到推理时都使用 CFG，因此应该锚定 CFG 引导的分布。实验结果在 GenEval 上实现 0.83 的综合得分，与 SOTA 持平。关键优势在于抗奖励黑客能力：在 HPSv2 上获得 28.5 的同时，FID 仅增加 2.3（对比 DPPO 的 FID 增加 8.7、DRaFT 的 FID 增加 5.1）。 OCR 文本渲染准确率提升 +23.1 pp。在 ImageReward 和 PickScore 等未见过的偏好指标上，CRD 的优化效果同样保持（证明非奖励黑客）。 7. SOLACE: 内在自置信奖励驱动的 T2I 后训练 (CVPR 2026) 论文信息标题: Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards 作者: Seungwook Kim, Minsu Cho arXiv: 2603.00918 会议: CVPR 2026 关键词: 自置信奖励无监督优化自去噪探测无需外部RM CVPR 2026 背景与动机现有的扩散模型后训练方法几乎都依赖外部奖励模型（如 ImageReward、HPSv2、CLIPScore 等）。然而：外部奖励模型本身存在偏差和幻觉。训练和维护奖励模型需要额外成本。过度优化外部奖励容易导致奖励黑客。一个自然的问题是：能否利用模型自身的内在信号来指导优化，完全不需要外部奖励模型？方法原理 SOLACE 提出了一种基于自置信度（Self-Confidence）的内在奖励信号： 1) 自去噪探测（Self-Denoising Probe）核心机制：对一张生成的图像注入一定量的噪声，然后让模型自己尝试恢复原图。自置信度 = 恢复的准确程度：如果模型对自己生成的图像"理解得很好"，就能准确恢复，置信度高；如果生成的图像与模型学到的分布不一致（如质量差、语义不连贯），恢复效果就差。数学上，自置信度与模型在该样本处的似然估计成正比。 2) 标量奖励转化将自去噪的重建误差转化为标量奖励分数：重建误差越小，奖励越高。使用多个噪声水平进行探测，取平均值以获得更稳定的估计。 3) 完全无监督的偏好优化利用自置信度奖励进行 GRPO 风格的优化，无需任何外部数据集、标注员或奖励模型。高置信度的生成结果被强化，低置信度的被抑制。创新点首个完全无外部奖励的扩散模型后训练方法：打开了"自监督偏好对齐"的新方向。自置信度信号的物理直觉：模型更容易恢复"好的"图像（与训练分布一致），提供了一种自然的质量度量。与外部奖励互补：SOLACE 与外部奖励结合使用时效果更好，且能缓解奖励黑客。零额外推理成本：自去噪探测仅在训练时使用，推理时完全不增加开销。实验结果仅使用内在奖励，在 GenEval 组合生成得分提升 +0.08（从 0.71 到 0.79）。文本渲染准确率提升 +15.3 pp。 SOLACE + 外部奖励的组合方案达到 0.85 GenEval 得分，为所有方法中最高。将 SOLACE 与 ImageReward 结合时，奖励黑客指标（FID 增量）从 ImageReward 单独使用时的 +6.2 降至 +1.8。 8. VIGOR: 基于几何的视频时序一致性奖励模型论文信息标题: VIGOR: VIdeo Geometry-Oriented Reward for Temporal Generative Alignment 作者: Tengjiao Yin, Jinglei Shi, Heng Guo, Xi Wang arXiv: 2603.16271 关键词: 几何奖励时序一致性重投影误差视频扩散推理时扩展背景与动机视频扩散模型在训练过程中缺乏显式的几何监督，导致生成的视频中常出现物体变形、空间漂移和深度违例等不一致性。现有的视频奖励模型主要基于语义（如 VQAScore、CLIPScore）或整体美学评估，无法捕捉帧间的几何一致性。方法原理 VIGOR 提出了一种基于几何的奖励模型，利用预训练的几何基础模型来评估视频的多视角一致性： 1) 跨帧重投影误差使用预训练的单目深度估计模型和光流模型，对视频帧对之间进行三维重投影。逐点计算重投影误差（而非像素级对比），得到更符合物理规律的误差度量。优势：逐点方式对纹理和光照变化更鲁棒，不会被像素强度差异干扰。 2) 几何感知采样过滤低纹理区域和非语义区域（如天空、纯色背景），将评估集中在具有可靠对应关系的几何有意义区域。使用特征匹配置信度作为权重，可靠区域的误差权重更大。 3) 双路径应用训练后微调：对双向视频模型使用 VIGOR 奖励进行 SFT 或 RL 后训练。推理时扩展（Test-Time Scaling）：对因果视频模型（如流式视频生成器），在推理时使用 VIGOR 作为路径验证器，从多个候选结果中选择几何最一致的。创新点首个基于物理几何约束的视频生成奖励模型：超越了纯语义/美学评估的局限。逐点误差计算：比像素级指标更鲁棒，对光照和纹理变化不敏感。推理时扩展的即插即用方案：无需重训练模型，通过推理时选择提升开源视频模型质量。兼容多种视频生成架构：双向模型（后训练）和因果模型（推理时扩展）均适用。实验结果在 VBench 动态一致性指标上提升 +5.8%。物体变形率从基线的 23.7% 降至 11.4%（减少 52%）。推理时扩展方案：在 Open-Sora 上，使用 VIGOR 选择最优帧序列，VBench 得分提升 +3.2 而无需任何额外训练。与 VQAScore 等语义奖励正交互补：两者结合可进一步提升 +1.5。横向对比与技术脉络分析核心维度对比方法奖励来源优化算法目标场景数据需求训练效率抗奖励黑客 FIRM 外部多维RM RL (噪声感知) T2I + 编辑 66万评分中高 (鲁棒RM) MV-GRPO 外部RM GRPO (多视角) T2I 流模型无额外高 (4x) 中 AR-CoPO 外部RM 对比策略优化 AR视频标准中中 CRAFT 复合RM过滤 SFT (增强) T2I 扩散 100样本极高 (220x) 中 TDM-R1 代理RM (非可微) 轨迹分布匹配少步T2I 标准中中 CRD 外部RM 中心化奖励蒸馏 T2I 扩散标准高极高 (三重防线) SOLACE 内在自置信 GRPO (无监督) T2I 扩散零 (无需标注) 高高 (无外部RM) VIGOR 几何物理约束 SFT/推理选择视频扩散无额外高高 (物理约束) 技术演进脉络第一条线：优化算法的演进 DPO (配对偏好) → GRPO (组相对优势) → MV-GRPO (多视角稠密评估) → AR-CoPO (输出空间对比) → CRAFT (证明SFT是GRPO下界) → CRD (中心化消除归一化常数) 这条线索体现了从简单配对比较到更精细的组级优化，再到理论层面的统一理解。CRAFT 的发现尤为重要：它证明了精心筛选数据后的 SFT 本质上就是 GRPO 的一种近似，为实践者提供了"大道至简"的选择。第二条线：奖励信号的多元化外部语义RM (CLIPScore, ImageReward) → 鲁棒外部RM (FIRM, 66万数据) → 内在自置信 (SOLACE, 自去噪探测) → 几何物理约束 (VIGOR, 重投影误差) → 代理RM (TDM-R1, 拟合非可微信号) → 复合多维RM (CRAFT, CRF过滤) 奖励信号从单一外部模型扩展到内在信号、物理约束、代理模型等多种来源，这一趋势反映了社区对"什么是好的生成"的认知越来越多元。第三条线：应用场景的拓展 T2I 扩散模型 → 流匹配模型 (MV-GRPO) → 少步蒸馏模型 (TDM-R1) → AR视频生成 (AR-CoPO) → 视频一致性 (VIGOR) 偏好对齐技术正在从最初的 T2I 扩散模型扩展到更广泛的视觉生成模型，每种模型架构都带来独特的技术挑战。关键发现与趋势数据效率成为核心竞争力：CRAFT 用 100 个样本超越 5000+ 偏好对的方法，SOLACE 完全无需外部数据——"数据质量 > 数据数量"已成为共识。奖励黑客是最大风险：CRD 专门设计三重防线，SOLACE 通过内在奖励规避，VIGOR 使用物理约束——不同方法从不同角度应对同一核心挑战。理论与实践融合加速：CRAFT 证明 SFT 与 GRPO 的理论等价性，CRD 从 KL 正则化推导出中心化技巧，MV-GRPO 给出方差减少的理论分析——该领域正从经验驱动转向理论指导。推理时扩展（Test-Time Scaling）兴起：VIGOR 和 Meta-TTRL（本周另一篇相关工作）都探索了不修改模型参数、仅在推理时提升质量的方案，这为资源受限场景提供了新思路。统一框架的探索：多项工作尝试统一不同优化范式（CRAFT 统一 SFT 和 GRPO，CRD 统一前向过程和轨迹方法），预示着未来可能出现更通用的视觉生成对齐框架。其他相关工作简述本周还有多篇相关工作值得关注： GDPO-SR (2603.16769): 将 GRPO 原理融入 DPO 用于一步超分辨率，引入属性感知奖励函数针对平滑/纹理区域差异化评估。 LibraGen (2603.13506): 主题驱动视频生成中的 DPO 应用，提出 Consis-DPO 和 Real-Fake DPO 两种定制化偏好优化管线。 Meta-TTRL (2603.15724): 统一多模态模型的测试时强化学习，利用模型内在元认知信号进行推理时自我改进。 Correlation-Weighted Multi-Reward (2603.18528): 组合生成中的多奖励协调优化，通过相关性加权平衡竞争概念间的奖励冲突。 V2A-DPO (2603.11089): 视频到音频生成的 DPO 框架，提出 AudioScore 综合评分系统。总结与展望本期专题梳理了视觉生成模型偏好对齐与 RL 后训练的最新进展。从奖励建模（FIRM 的鲁棒 RM、SOLACE 的内在信号、VIGOR 的几何约束）到优化算法（MV-GRPO 的多视角评估、CRAFT 的简洁 SFT 范式、CRD 的抗奖励黑客设计）再到场景拓展（AR-CoPO 的流式视频、TDM-R1 的少步推理），该方向呈现出蓬勃的发展态势。未来值得关注的方向：多模态统一对齐：将偏好对齐扩展到图像+视频+音频的统一生成模型。在线人类反馈：从离线偏好数据集转向在线、实时的人类反馈闭环。可解释奖励：让用户和开发者理解"为什么这张图/这段视频被认为是好的"。超长视频对齐：随着视频生成长度增加，如何在数分钟长度的视频上进行有效的偏好对齐。安全对齐：在提升质量的同时，确保生成内容的安全性和合规性。本期专题由人工智能炼丹师整理，更多 AIGC 前沿动态请关注 jefxiong.cn
- 2026年03月21日
- 7 阅读
- 0 评论
- 0 点赞

Jefxiong

62 文章数

8 评论量

人生倒计时

标签云

粤ICP备2021042327号