人工智能炼丹君发布的文章 - 人工智能炼丹君

标签搜索

Jefxiong

累计撰写 68 篇文章
累计收到 8 条评论

搜索到 68 篇与人工智能炼丹君的结果

2026-05-15
AIGC 每日速读|2026-05-15|实时视频2步出帧Causal Forcing++ 今日 AIGC 论文速览今日共 8 篇 · 实时 AR 视频与世界模型 3 篇 · 相机控制与视频生成 2 篇 · 图像编辑持续学习 1 篇 · 扩散模型 RL 后训练 1 篇 · 视频世界模型评测 1 篇重点论文标题列表 Causal Forcing++：因果一致性蒸馏 Warp-as-History：把相机引起的形变直接转化为「相机扭曲 ACE-LoRA：动态正则化框架 RefDecoder：参考条件视频 VAE decoder DiffusionOPD：多任务训练范式今日论文速览 1. Causal Forcing++：因果一致性蒸馏 Causal Forcing++: Scalable Few-Step Autoregressive Diffusion Distillation for Real-Time Interactive Video Generation | 清华 TSAIL, 生数科技 | arXiv:2605.15141 关键词：少步AR视频·因果一致性蒸馏·实时交互生成·世界模型·Genie3 前序问题：实时交互式视频生成需要低延迟、流式、可控的 rollout。现有自回归扩散蒸馏在 chunk-wise 4 步取得了不错效果，但 chunk 粒度过粗、采样延迟仍然不可忽略；当尝试更激进的 frame-wise 1-2 步时，少步 AR 学生的初始化策略要么目标错位、要么不能少步生成、要么算力代价大到无法 scale 本文贡献：提出 Causal Forcing++ 因果一致性蒸馏（Causal CD）流水线：核心观察是 Causal CD 学习与 Causal ODE 蒸馏相同的 AR-条件流图，但只需在相邻时间步之间用一次教师 ODE 步在线提供监督，无需预先计算并存储完整 PF-ODE 轨迹——既高效又易优化；进一步把流水线扩展到 Genie3 风格的 action-conditioned 世界模型实验效果：在 frame-wise 2 步设定下，全面超越 SOTA 4 步 chunk-wise Causal Forcing：VBench Total +0.1、VBench Quality +0.3、VisionReward +0.335，同时首帧延迟降低 50%、Stage 2 训练成本降至约 1/4 批判点评：把蒸馏从 chunk-wise 4 步推进到 frame-wise 2 步，是实时交互式视频生成可用性上的关键一步——把瓶颈识别为「初始化」是非常贴切的诊断；但 1-2 步生成对教师 ODE 误差的放大效应、以及在更复杂 action 条件下的稳定性还需更多压力测试 2. Warp-as-History：把相机引起的形变直接转化为「相机扭曲 Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video | 上海交大, 上海 AI Lab | arXiv:2605.15182 关键词：相机控制·视频生成·零样本·伪历史·LoRA 微调前序问题：相机可控视频生成已经很成熟，但现有方法普遍需要在大规模带相机标注的视频上做后训练（额外的 camera encoder、控制分支、注意力/位置编码改造）；training-free 方案则把代价转嫁到测试时优化或 denoising 时的额外 guidance，依然不便宜本文贡献：提出 Warp-as-History：把相机引起的形变直接转化为「相机扭曲后的伪历史」，在 frozen 视频生成模型自带的「视觉历史」通路中喂进去——目标帧位置编码对齐、剔除没有有效观测来源的 token，无需训练或架构改动即可零样本服从相机轨迹；可选用一段相机标注视频做轻量 LoRA 微调进一步提升泛化能力实验效果：在多个数据集上的实验显示：完全 training-free 即可让冻结视频生成模型获得不平凡的相机轨迹跟随能力；只用「一段」相机标注视频做 LoRA 微调，即可在未见视频上同时改善相机贴合度、画质与运动动态批判点评：把相机可控问题视作「历史 warp」是一个非常优雅的视角，几乎不增加任何训练成本；但 zero-shot 能力依赖底模的「视觉历史」通路是否足够强，没有该通路的扩散视频模型迁移性可能受限；另外极端轨迹下的孔洞填充质量值得关注 3. ACE-LoRA：动态正则化框架 ACE-LoRA: Adaptive Orthogonal Decoupling for Continual Image Editing | 上海交大, vivo AI Lab | arXiv:2605.14948 关键词：持续学习·图像编辑·LoRA·正交解耦·CIE-Bench 前序问题：现有 SOTA 扩散模型靠参数高效微调（LoRA 等）适配各类图像编辑任务，但真实业务需要在不断到来的新任务上持续学习同时保留旧任务能力；图像编辑的持续学习问题至今几乎没人系统研究，灾难性遗忘问题严重本文贡献：提出 ACE-LoRA 动态正则化框架：通过 Adaptive Orthogonal Decoupling 自动识别并正交化任务间干扰，再用 Rank-Invariant Historical Information Compression 解决持续更新中的可扩展性瓶颈；同时发布 CIE-Bench——业内首个面向图像编辑的持续学习评测基准实验效果：在指令保真度、视觉真实感、抗遗忘鲁棒性上一致优于现有 baseline，建立了「图像编辑持续学习」这一子方向的标准方法+标准评测批判点评：把「持续学习」首次正式带到图像编辑领域，问题设定和 benchmark 都非常务实；但 14 维基因式正交化的超参对任务序列分布的鲁棒性、以及面对几十个长尾编辑任务时压缩策略的极限，需要更长任务流的实测 4. RefDecoder：参考条件视频 VAE decoder RefDecoder: Enhancing Visual Generation with Conditional Video Decoding | University of Washington, UNC | arXiv:2605.15196 关键词：视频 VAE·参考条件 decoder·视频生成·即插即用·VBench 前序问题：主流 latent 视频扩散模型的 denoising 网络条件丰富，但 VAE decoder 几乎都是无条件的——这种结构性不对称导致细节流失、与输入参考图不一致，是当前视频生成「看起来糊糊的」的隐藏元凶本文贡献：提出 RefDecoder 参考条件视频 VAE decoder：用一个轻量图像编码器把参考帧映射成细节丰富的高维 token，在 decoder 每个 upsampling stage 与去噪后的视频 latent token 共同处理（reference attention），让 decoder 也获得与 denoising 网络对等的条件信息实验效果：在 Wan 2.1、VideoVAE+ 等多个 decoder backbone 上一致提升 PSNR 最多 +2.1dB（Inter4K / WebVid / Large Motion）；可直接热插拔进现有视频生成系统，无需额外微调，VBench I2V 上主体一致性、背景一致性、综合质量全面提升；天然泛化到风格迁移、视频编辑精修等任务批判点评：这是一项「补条件」的低风险高收益工作，可即插即用是工程师最爱的属性；但 decoder 端注入参考可能在大幅运动场景下与 latent 表示冲突，长视频累积误差与 reference token 选择策略仍有优化空间 5. DiffusionOPD：多任务训练范式 DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models | 阿里 Wan Team, 复旦 | arXiv:2605.15055 关键词：扩散模型 RL·On-Policy 蒸馏·多任务·Wan Team·文生图前序问题：强化学习是改进文生图扩散模型的强力工具，但现有方法大多局限于单任务优化——多任务联合 RL 受困于跨任务干扰和不平衡，级联 RL 又笨重且易遗忘本文贡献：提出 DiffusionOPD 多任务训练范式：先独立训练任务专属 teacher，再沿学生自己的 rollout 轨迹做 Online Policy Distillation 把多 teacher 能力蒸馏到统一学生；理论上首次把 OPD 框架从离散 token 提升到连续状态 Markov 过程，给出闭式 per-step KL 目标，统一 SDE 与 ODE refinement，方差更低、泛化更好实验效果：一致超越多奖励 RL 与级联 RL 基线，训练效率与最终性能两端均占优，在所有评测基准上达到 SOTA 批判点评：把 OPD 严格地搬上连续扩散是漂亮的理论延伸，多任务版本对落地非常有价值；但 teacher 数量增加后蒸馏的 token-level KL 是否仍稳定、teacher 与学生 capacity 失配时的下界，仍需更大规模实验 6. RAVEN：框架 RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO | 帝国理工 AGI Lab | arXiv:2605.15190 关键词：实时 AR 视频·一致性模型·CM-GRPO·训练-测试对齐·流式生成前序问题：因果自回归视频扩散模型靠把过去内容外推未来 chunk 实现实时流式生成，蒸馏自高保真双向教师后已能少步推理；但训练时 history 分布与推理时实际 rollout 分布之间的 gap 一直限制长序列的生成质量本文贡献：提出 RAVEN training-time test 框架：把每次自身 rollout 重打包为「干净历史端点 + 噪声去噪状态」交错序列，让训练注意力对齐推理时的外推方式，同时让下游 chunk loss 监督未来预测所依赖的历史表示；进一步提出 CM-GRPO，把 consistency 采样步重新表达为条件高斯转移，直接在该核上做在线 RL，避免了之前 flow-model RL 公式中的 Euler-Maruyama 辅助过程实验效果：RAVEN 在质量、语义、动态度多维评测上超越近期因果视频蒸馏 baseline；CM-GRPO 与 RAVEN 组合后进一步提升性能批判点评：把 training-test 不一致问题正面解决并配套 CM-GRPO 是组合拳；但 RAVEN 重打包对长序列内存占用的影响、CM-GRPO 在更复杂奖励上的稳定性，还需要在更大模型尺度上验证 7. SANA-WM：2.6B 参数原生面向 1 SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer | NVIDIA, MIT, 港科大 | arXiv:2605.15178 关键词：世界模型·分钟级视频·Hybrid Linear Attention·6-DoF 相机·开源前序问题：一分钟级别的世界模型既要画质媲美 LingBot-World、HY-WorldPlay 这些产业级大模型，又要在算力、数据、推理硬件三方面都「能用得起」——目前几乎没有开源方案能同时做到本文贡献：提出 SANA-WM：2.6B 参数原生面向 1 分钟视频生成的开源世界模型——(1) Hybrid Linear Attention 把 frame-wise Gated DeltaNet 与 softmax attention 混合，长上下文内存可控；(2) Dual-Branch Camera Control 保证 6-DoF 轨迹精确跟随；(3) 两阶段生成 + long-video refiner；(4) 鲁棒标注流水线从公开视频中提取 metric-scale 6-DoF 相机姿态作为动作标签实验效果：仅用约 213K 公开视频片段、64 张 H100 训练 15 天，每个 60s 720p clip 单 GPU 即可生成；蒸馏量化版可在单卡 RTX 5090 上 NVFP4 量化下 34 秒生成 60s 720p；在 1 分钟世界模型 benchmark 上动作跟随精度强于现有开源 baseline，画质相当但吞吐高 36 倍批判点评：把「分钟级世界模型」做到能在单张消费卡上跑动，是世界模型走向开发者手里的关键一步；但 1 分钟仍然依赖「stage-2 refiner」这一外置模块，端到端 1 分钟生成质量与商业闭源仍有差距 8. PDI-Bench：几何一致性量化框架 Quantitative Video World Model Evaluation for Geometric-Consistency | UCSD, 港科大等 | arXiv:2605.15185 关键词：视频世界模型·几何一致性·评测基准·3D 重建·物理推理前序问题：生成视频模型越来越被当作隐式世界模型来研究，但「生成视频是否产生了物理合理的 3D 结构与运动」一直缺乏客观度量——现有评测要么靠人工打分要么靠学习式 grader，对几何失败的诊断力都很弱本文贡献：提出 PDI-Bench（Perspective Distortion Index）几何一致性量化框架：先用 SAM 2、MegaSaM、CoTracker3 抽取物体级观测，单目重建到 3D 世界坐标，再算三类射影几何残差——尺度-深度对齐、3D 运动一致性、3D 结构刚性；配套 PDI-Dataset 覆盖多种压力测试场景实验效果：在多个 SOTA 视频生成器上揭示了通用感知指标完全捕获不到的「几何特定失败模式」，为「物理基础视频生成 / 物理世界模型」的进展提供了可诊断信号批判点评：把视频世界模型评测从「看起来对不对」推进到「几何上对不对」是必要的下一步，依托成熟 3D 工具链让指标可复现；但单目重建本身的误差对 PDI 指标的噪声有多大、对真实开放世界长尾场景的覆盖度，是后续要补的关键证据趋势观察实时交互视频生成进入 frame-wise 时代 — Causal Forcing++ 把少步 AR 视频从 chunk-wise 4 步压缩到 frame-wise 2 步，首帧延迟降一半；RAVEN 用 training-time test + CM-GRPO 直击 history 分布漂移——实时交互视频已经从「能动」进入「秒级响应」相机控制从「重训」走向「零样本 + 一段视频微调」 — Warp-as-History 把相机条件转译为 frozen 模型自带的视觉历史通路，零样本即跟随；只用一段视频做 LoRA 即可泛化到未见素材——相机可控视频生成从「依赖大规模标注」滑向「轻数据即用」 VAE decoder 不再是哑终端 — RefDecoder 指出主流视频扩散模型 decoder 长期处于「无条件」状态，导致细节流失；用 reference attention 给 decoder 也加上条件，PSNR 直接 +2.1dB——decoder 端的条件化正成为视频生成的下一个低悬果实世界模型走向消费级硬件 — SANA-WM 用 Hybrid Linear Attention + 量化在单卡 RTX 5090 上跑出 34 秒生成 60 秒 720p——分钟级世界模型第一次具备了「开发者本地可玩」的硬件包络评测从感知质量转向几何/物理一致性 — PDI-Bench 把视频世界模型的考评从「看起来真不真」转到「几何上对不对」，借助成熟 3D 工具链给出射影几何残差——这预示着视频生成下一阶段的评测竞赛是「物理可解释性」人工智能炼丹君整理 | 2026-05-15 更多 AIGC 论文解读，关注微信公众号「人工智能炼丹君」每日更新 · 论文精选 · 深度解读 · 技术脉络微信搜索人工智能炼丹君或扫描下方二维码关注
- 2026年05月15日
- 48 阅读
- 0 评论
- 0 点赞
2026-05-14
AIGC 每日速读|2026-05-14|视频扩散从少步到任意步AnyFlow 今日 AIGC 论文速览今日共 6 篇 · 视频扩散与推理加速 2 篇 · 图像生成与表征 2 篇 · 图像编辑与对齐评测 1 篇 · RL 后训练方法论 1 篇重点论文标题列表 AnyFlow：——首个基于 flow map AsymFlow：rank-asymmetric ⚡ Qwen-Image-VAE-2.0：高压缩 VAE 套件 Edit-Compass：EditReward-Compass Orthrus：双视图框架今日论文速览 1. AnyFlow：——首个基于 flow map AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation | 新加坡国立大学 Show Lab, MIT, NVIDIA | arXiv:2605.13724 关键词：视频扩散·Flow Map·On-Policy 蒸馏·Any-Step·推理加速 ⚠️ 前序问题：近一年的少步视频生成几乎被一致性蒸馏（Consistency Distillation）统治，4-8 步即可出图，但只要把采样步数从 4 加到 16/32 画质反而塌——CD 用一致性轨迹替换了原始 PF-ODE 轨迹，破坏了 ODE 采样在测试时的可扩展行为，无法服务「任意步数」推理需求本文贡献：提出 AnyFlow——首个基于 flow map 的任意步数视频扩散蒸馏框架：(1) 把蒸馏目标从端点一致性映射 z_t→z_0 升级为流图过渡 z_t→z_r，让学生学会任意时间区间的跳跃；(2) Flow Map Backward Simulation 把完整 Euler rollout 拆为多段 shortcut，用 on-policy rollout 替代 off-policy 配对蒸馏，缓解少步采样的离散化误差和因果生成的 exposure bias 实验效果：在双向 DiT 与因果两类视频扩散骨干、1.3B 到 14B 全规模区间一致达到或超越 consistency baseline；当步数从 4 提升到 16/32 时性能不再退化、反而单调上升，重新恢复了 ODE 采样的 test-time scaling 优势批判点评：把蒸馏目标从端点一致性升级到任意区间流图是范式级创新，FMBS 的 on-policy 反向模拟在视频域是首次系统化提出；但论文未公开 VBench/UCF-FVD 等具体数值，复现门槛在 1B-14B 教师 + 大规模 on-policy rollout，数据与算力两端都不低 2. AsymFlow：rank-asymmetric Asymmetric Flow Models | Stanford, ETH | arXiv:2605.12964 关键词：Flow Matching·像素扩散·非对称参数化·FLUX.2·文生图 ⚠️ 前序问题：高维像素空间下做 flow matching 速度预测时，模型必须建模与图像同维的高维噪声，即使数据本身有强低秩结构也只能用满秩参数化硬扛，导致像素扩散与潜空间模型间长期存在显著质量差距本文贡献：提出 AsymFlow：rank-asymmetric 速度参数化——噪声预测限制在低秩子空间、数据预测保持满维，不改网络结构与训练/采样流程即可解析恢复完整速度；首次给出潜空间预训练→像素空间微调的可行路径，让 FLUX.2 klein 9B 的潜空间先验直接初始化像素生成实验效果：ImageNet 256×256 取得 1.57 FID，大幅超越同类 DiT/JiT 像素扩散；从 FLUX.2 klein 9B 微调出的像素文生图模型在 HPSv3、DPG-Bench、GenEval 上全面超越其潜空间基模，主观真实感显著提升批判点评：rank-asymmetric 视角直击像素扩散的本质瓶颈，无侵入式参数化是工程甜点；但低秩子空间的秩选择、与 FLUX.2 这种顶级模型的耦合是否过强、跨数据集泛化能力都还需更大规模验证 3. Qwen-Image-VAE-2.0：高压缩 VAE 套件 Qwen-Image-VAE-2.0 Technical Report | Alibaba Qwen Team | arXiv:2605.13565 关键词：图像 VAE·高压缩·文本渲染·扩散兼容·视觉分词器 ⚠️ 前序问题：高压缩比 VAE 在重建保真度和 diffusability 之间长期难以兼得——压得越狠下游 DiT 越难训，文本密集场景（文档、海报）的字符更是首当其冲糊掉本文贡献：提出 Qwen-Image-VAE-2.0 高压缩 VAE 套件：架构上引入 Global Skip Connections + 扩展潜空间通道；训练上用十亿级图像 + 合成渲染引擎专项强化文本场景；潜空间用增强语义对齐策略让其更适合扩散建模；编解码器采用非对称 + attention-free 主干降低编码开销实验效果：在公开重建基准上达到 SOTA；提出 OmniDoc-TokenBench 文档专项评测，在高压缩比下兼顾通用与文本场景；下游 DiT 实验显示其 diffusability 显著优于现有高压缩基线，收敛速度明显加快批判点评：把 VAE 当成独立产品打磨——文档专项 benchmark + 文本渲染合成数据是务实的工程亮点；但相对其他高压缩 VAE 的提升幅度需等论文公开数值后比较，「diffusability」的量化定义仍偏经验 4. Edit-Compass：EditReward-Compass Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling | 字节跳动 Doubao Team 等 | arXiv:2605.13062 关键词：图像编辑·Reward Model·多维评测·RL 对齐·Benchmark ⚠️ 前序问题：现有图像编辑 benchmark 难度不足、评测维度粗放，已无法区分前沿模型；与此同时图像编辑 RL 越来越依赖 reward model，但 reward model 评测仍停留在脱离实际 RL 场景的设定上，导致编辑模型与 reward model 都缺少可靠裁判本文贡献：提出 Edit-Compass + EditReward-Compass 统一评测套件：前者含 2,388 条精标实例，覆盖世界知识推理、视觉推理、多图编辑等六级递进任务，采用结构化推理 + 细粒度 rubric 多维评分；后者含 2,251 对偏好对，模拟真实 RL 优化中的 reward 场景实验效果：为前沿编辑模型提供了能拉开差距的多维难度梯度，配套的 reward model 评测能反映 RL 训练中 reward model 的真实表现，为后续编辑模型与 reward model 的迭代提供统一坐标系批判点评：把「编辑能力」和「reward model 能力」两条评测线收编进同一套 benchmark 是踏实的基础工作；2,251 对偏好对的标注一致性、reward 评测对真实 RL 收益的预测力，是这类工作走向社区共识的关键门槛 5. Orthrus：双视图框架 Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion | Adobe Research, University of Oregon | arXiv:2605.12825 关键词：并行解码·扩散语言模型·KV Cache·推理加速·双视图 ⚠️ 前序问题：自回归 LLM 生成保真度高但串行解码慢，扩散语言模型可并行却质量退化、训练贵、收敛缺乏严格保证——视觉/多模态 token 生成场景同样面临「快」与「准」难以兼得本文贡献：提出 Orthrus 双视图框架：在冻结的 AR LLM 上挂载一个轻量可训练扩散并行视图，两视图共用同一份高保真 KV Cache——AR 头负责 prefill 构建准确表征、扩散头负责并行解码；通过两视图共识机制保证无损推理，把扩散并行解码移植到 Transformer 几乎零侵入实验效果：在保证完全等价生成（lossless）的前提下，相比纯自回归提供最高 7.8x 加速，KV Cache 内存仅增加 O(1)，参数增量极小；为视觉/多模态自回归 token 生成提供直接可用的并行加速路线批判点评：把扩散当成 AR 的「并行外设」而不是替代品，借共识机制保留 AR 保真度，工程上很优雅；但 7.8x 加速属上限值，真实任务下并行步内的拒绝率与吞吐曲线值得进一步给出，扩散头训练成本也未充分披露 6. Beyond-GRPO：奖励分配原则 Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training | Meta | arXiv:2605.12483 关键词：LLM 后训练·GRPO·On-Policy 蒸馏·奖励密度·稀疏到稠密 ⚠️ 前序问题：在「可验证标注极其稀缺」的后训练场景下，主流做法（在部署模型本身上跑 GRPO）忽视了一个奖励密度原则：稀疏的序列级奖励应该用在能产生有效探索的强模型上、稠密的 token 级奖励才适合把行为压缩进小模型，这一直觉对生成模型的 RL 对齐同样关键本文贡献：提出 Sparse-to-Dense 奖励分配原则：把宝贵的可验证数据先「上游」给强 teacher 跑 GRPO 做探索，再以稠密蒸馏的形式「下游」灌给小学生，最后在学生侧再补一段稀疏 RL；具体配方为 forward-KL warmup → OPD on-policy → 学生侧 GRPO 的三段桥实验效果：在 Qwen3-1.7B 学生固定的前提下，先在 8B teacher 上 RL 再蒸馏全面优于直接在学生上 GRPO；学生侧后续 GRPO 把 MATH 从 75.4% 提升到 78.5%、比 replay baseline 高 2.8 分，AIME 端点也最强批判点评：「奖励密度」的视角让 GRPO 与 OPD 不再对立而成同一光谱的两端，对资源紧张团队的实践指导价值很高；但结论建立在数学这一可验证任务上，对图像/多模态生成等弱验证任务能否平移仍待验证趋势观察视频扩散从「少步」走向「任意步」 — AnyFlow 把蒸馏目标从端点一致性升级到任意区间的 flow map，叠加 on-policy 反向模拟，让一个学生模型在 1/4/16/32 步上都呈现良性 scaling——少步视频生成第一次有了真正的「test-time 预算自由度」像素扩散借势潜空间预训练 — AsymFlow 用 rank-asymmetric 速度参数化把高维噪声预测限制在低秩子空间，并首次跑通了「FLUX.2 klein 9B 潜空间→像素空间」的微调路径——像素扩散与潜空间扩散开始走向「初始化共享、后期分化」的新协作方式 VAE 不再是配角，而是产品 — Qwen-Image-VAE-2.0 把高压缩 VAE 当作独立产品打磨：Global Skip Connections + 扩展通道 + 文档专项 benchmark，承认了「VAE 决定 DiT 上限」的事实，VAE 进入「文本可读、扩散友好、推理便宜」的三维竞赛编辑模型与 reward model 同台同尺 — Edit-Compass 把「图像编辑能力」和「reward model 能力」并入同一评测套件，并把 reward model 评测从脱节场景改造成贴合 RL 实战的偏好对——前沿编辑模型的 RL 对齐第一次有了配套的统一坐标系稀疏-稠密奖励分配成为后训练新共识 — Beyond-GRPO 给出一条简单规则：稀缺可验证数据先在强 teacher 上做稀疏 RL，再以稠密蒸馏下沉到小学生，最后学生侧补稀疏 RL；这一原则同样适用于多模态生成模型的 reward 分配，正在成为下一代 alignment pipeline 的骨架人工智能炼丹君整理 | 2026-05-14
- 2026年05月14日
- 100 阅读
- 0 评论
- 0 点赞
2026-05-13
AIGC 每日速读|2026-05-13|INSET图像即词汇开启统一视觉生成新范式今日 AIGC 论文速览今日共 10 篇 · 统一视觉生成与编辑 3 篇 · 视频生成与叙事 2 篇 · 视觉分词与表征 2 篇 · 视频理解与推理 1 篇 · Agent 与训练方法论 2 篇重点论文标题列表 INSET：将图像作为原生词汇无缝嵌入文本指令— Qwen-Image-2.0：全能图像生成基础模型 ⚡ DRoRAE：轻量级融合模块通过能量约束路由和增量 CausalCine：交互式自回归框架 ELF：在连续嵌入空间中基于连续时间今日论文速览 1. INSET：将图像作为原生词汇无缝嵌入文本指令— INSET (Images iN SEnTences): Interleaved Instruction for Unified Visual Generation | MIT, ETH | arXiv:2605.12305 关键词：交错指令·统一视觉生成·图像词汇化·多图一致性·数据引擎 ⚠️ 前序问题：现有多模态语言模型已支持从多图指令生成图像，但在处理复杂交错指令时性能急剧下降——根本原因在于当前范式中图像和文本结构性分离，模型必须跨越困难的长距离依赖才能将描述与视觉目标正确匹配，导致多图一致性和精确绑定失败本文贡献：提出 INSET（Images iN SEnTences），将图像作为原生词汇无缝嵌入文本指令——直接把视觉特征放在对应语义槽位，利用 Transformer 的上下文局部性替代长距离依赖实现精确对象绑定；同时设计可扩展数据引擎，借助 VLM 和 LLM 从标准图像/视频数据集合成 1500 万高质量交错样本实验效果：在 InterleaveBench 上显著超越 SOTA，多图一致性和文本对齐方面领先，且随输入复杂度增加性能差距进一步扩大；架构天然扩展支持多模态图像编辑，把视觉内容作为指令一部分实现高度表达性的视觉操控批判点评：图像词汇化的核心直觉新颖——把多图绑定从长距离依赖问题转化为局部上下文问题是范式级改变；但 1500 万合成数据的复现成本极高，模型与数据是否开源将直接决定其影响力，且论文未给出 FLOPS/推理延迟的对比 2. Qwen-Image-2.0：全能图像生成基础模型 Qwen-Image-2.0 Technical Report | Alibaba Qwen Team | arXiv:2605.10730 关键词：图像生成·文本渲染·多语言排版·扩散Transformer·统一编辑 ⚠️ 前序问题：现有图像生成模型在超长文本渲染、多语言排版、高分辨率写实、鲁棒指令遵循和高效部署方面仍面临挑战，尤其在文字密集和组合复杂场景中表现不足本文贡献：提出 Qwen-Image-2.0 全能图像生成基础模型：将 Qwen3-VL 作为条件编码器与多模态扩散 Transformer 结合，支持联合条件-目标建模；支持 1K token 长度指令生成文字密集内容（幻灯片、海报、信息图、漫画），显著提升多语言文字保真度和排版质量实验效果：在生成和编辑任务上大幅超越之前的 Qwen-Image 模型，在写实感、细节丰富度、纹理真实性和光照一致性方面均有显著提升批判点评：统一生成和编辑的全能架构令人印象深刻，但技术报告形式缺乏与开放社区模型的公平对比；1K token 长指令的实际推理成本和延迟未详述 3. DRoRAE：轻量级融合模块通过能量约束路由和增量 Beyond the Last Layer: Multi-Layer Representation Fusion for Visual Tokenization | Peking University, Meituan, Tsinghua University | arXiv:2605.10780 关键词：视觉分词器·多层融合·表征自编码·缩放律·图像生成 ⚠️ 前序问题：表征自编码器（Representation AE）复用冻结预训练视觉编码器作为视觉分词器，但现有方法仅提取最后一层特征，丢弃了中间层分布的丰富层次化信息——低层视觉细节在最后一层仅以衰减残差形式存活本文贡献：提出 DRoRAE（深度路由表征自编码器）：轻量级融合模块通过能量约束路由和增量校正自适应聚合所有编码器层；三阶段解耦训练策略先在冻结解码器的隐式分布约束下学习融合，再微调解码器充分利用丰富表征实验效果：在 ImageNet-256 上将 rFID 从 0.57 降至 0.29，生成 FID 从 1.74 降至 1.65；发现融合容量与重建质量间的对数线性缩放律（R²=0.86）批判点评：多层融合的思路简洁有效，对数线性缩放律的发现为视觉分词器提供了新的可预测扩展维度；但融合模块的额外计算开销和对不同编码器架构的泛化性需更多验证 4. CausalCine：交互式自回归框架 CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives | HKUST, Ant Group, SJTU | arXiv:2605.12496 关键词：多镜头视频·自回归生成·实时推理·记忆路由·镜头转换 ⚠️ 前序问题：自回归视频生成以实时开放式合成为目标，但电影叙事不是无限延伸单一场景——它需要事件演进、视角切换和镜头边界。现有 AR 模型将长序列视为延伸单镜头，导致长推演中运动停滞和语义漂移本文贡献：提出 CausalCine 交互式自回归框架：将多镜头视频生成转化为在线导演过程；先在原生多镜头序列上训练因果基础模型学习复杂镜头转换先验，再提出 Content-Aware Memory Routing (CAMR) 按注意力相关性动态检索历史 KV 条目，最后蒸馏为少步实时生成器实验效果：显著超越自回归基线，接近双向模型能力，同时解锁因果生成的流式交互特性，支持动态 prompt 实时切换批判点评：多镜头叙事的问题设定高度实用，CAMR 的内容感知路由设计优雅；但蒸馏后的少步生成器是否保持镜头转换的多样性存疑；训练数据中多镜头标注的获取成本未讨论 5. ELF：在连续嵌入空间中基于连续时间 ELF: Embedded Language Flows | MIT (Kaiming He 团队) | arXiv:2605.10938 关键词：连续扩散语言模型·Flow Matching·嵌入空间·CFG·文本生成 ⚠️ 前序问题：扩散/流模型在连续数据（图像、视频）生成中占主导地位，但应用于语言建模时，当前领先的扩散语言模型（DLM）仍主要操作离散 token，连续 DLM 尚未证明有效性本文贡献：提出 ELF（Embedded Language Flows）：在连续嵌入空间中基于连续时间 Flow Matching 的扩散模型，在最终时间步通过共享权重网络映射到离散 token；这一公式化使得从图像扩散模型迁移成熟技术（如 CFG）变得直接实验效果：大幅超越领先的离散和连续 DLM，以更少的采样步骤实现更好的生成质量，证明连续 DLM 可以通过最小适配有效工作批判点评：Kaiming He 团队的工作一贯简洁有力——将连续流匹配应用于语言的思路开创性地打通了图像和语言扩散的技术栈；但语言的离散本质是否在连续空间中引入不必要的量化误差值得深入分析 6. PhyGround：标准化物理推理基准 PhyGround: Benchmarking Physical Reasoning in Generative World Models | Northeastern University, ETH | arXiv:2605.10806 关键词：物理推理基准·世界模型·视频生成评估·VLM评判器·人类评估 ⚠️ 前序问题：生成式世界模型被期望捕获真实世界物理规则，但评估生成视频是否真正遵循物理定律仍极具挑战——现有基准存在粗粒度评估掩盖逐律失败、标注偏见和自动评估器物理感知不足等问题本文贡献：提出 PhyGround 标准化物理推理基准：250 个精选 prompt 配有预期物理结果，覆盖固体力学、流体动力学、光学等 13 条物理定律的分类学；通过社会科学实验设计执行 459 名标注者大规模人类评估；发布 PhyJudge-9B 物理专用 VLM 评判器实验效果：PhyJudge-9B 相对偏差仅 3.3%（vs Gemini-3.1-Pro 的 16.6%）；人类标注达到高分半相关性（Spearman's ρ > 0.90），揭示当前视频生成器在视觉逼真和物理推理间的持续鸿沟批判点评：评估框架设计严谨（借鉴社会科学实验方法论），PhyJudge-9B 的开源贡献显著；但 250 个 prompt 的规模可能不足以覆盖开放世界物理场景的长尾分布 7. GridProbe：无训练后验探测推理范式 GridProbe: Posterior-Probing for Adaptive Test-Time Compute in Long-Video VLMs | MIT | arXiv:2605.10762 关键词：长视频理解·自适应计算·帧选择·后验探测·VLM推理 ⚠️ 前序问题：长视频 VLM 理解被单次整体前向传播瓶颈化——数千帧的二次注意力成本高昂；现有帧选择方法依赖编码器空间相似度，在推理密集型查询（否定、跨帧计数、全局总结）上失败本文贡献：提出 GridProbe 无训练后验探测推理范式：将帧排列为 K×K 网格，执行轻量行列探测，用冻结 VLM 自身推理能力在答案空间中评分证据，外积生成可解释重要性图；提出 Shape-Adaptive Selection 闭式规则以每问题自适应帧预算替代固定预算实验效果：在 Video-MME-v2 上匹配整体基线精度（差 1.6pp）的同时减少 3.36x TFLOPs；在 LongVideoBench 上 Pareto 主导基线（+0.9pp at 0.35x compute）；2B 选择器 + 8B QA 组合在 0.52x 计算量下提升 +4.0pp 批判点评：后验探测的思路巧妙——用模型自身推理能力选帧替代外部相似度；Shape-Adaptive Selection 的闭式解优雅实用；但网格排列假设可能在超长视频中引入信息损失 8. AlphaGRPO：将 GRPO 应用于 AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward | HKU | arXiv:2605.12495 关键词：多模态生成·GRPO·可验证奖励·自反思·统一模型 ⚠️ 前序问题：统一多模态模型（UMM）缺乏有效的强化学习对齐方案——多模态生成场景中提供稳定监督信号极具挑战，现有整体标量奖励无法捕捉多维语义和质量要求本文贡献：提出 AlphaGRPO：将 GRPO 应用于 AR-Diffusion UMM，无需额外冷启动阶段；引入分解可验证奖励（DVReward）——LLM 将复杂请求分解为原子可验证语义/质量问题，由通用 MLLM 评估提供可靠可解释反馈；解锁推理型文生图和自反思精炼能力实验效果：在 GenEval、TIIF-Bench、DPG-Bench、WISE 等多模态生成基准上取得稳健提升，同时在未训练的编辑任务（GEdit）上也获得显著增益批判点评：分解可验证奖励的设计思路与 Auto-Rubric as Reward 异曲同工，自反思精炼是引人注目的涌现能力；但 DVReward 的可靠性仍受限于评估用 MLLM 的能力上限 9. Shepherd：函数式编程模型 Shepherd: A Runtime Substrate Empowering Meta-Agents with a Formalized Execution Trace | Stanford, META | arXiv:2605.10913 关键词：Meta-Agent·执行追踪·分叉重放·函数式编程·Agent基础设施 ⚠️ 前序问题：Meta-Agent 对目标 Agent 的操作缺乏形式化框架——无法有效记录、分叉和重放 Agent 执行状态，限制了运行时干预、反事实优化和训练等高级能力本文贡献：提出 Shepherd 函数式编程模型：将 meta-agent 操作形式化为函数（核心操作在 Lean 中机械化），以 Git-like 执行追踪记录每次交互为类型化事件，支持任意状态分叉和重放；进程+文件系统 fork 速度比 Docker 快 5 倍，重放时 prompt-cache 复用率 >95% 实验效果：运行时干预将结对编程通过率从 28.8% 提升至 54.7%；反事实优化在四个基准上领先最多 11 分且墙钟时间减少 58%；Tree-RL 训练在 TerminalBench-2 上从 34.2% 提升至 39.4% 批判点评：将 Agent 执行形式化为可分叉追踪的系统设计前沿且实用，Git-like 语义直观易理解；但 Lean 形式化的学习曲线和实际部署复杂度可能限制采用 10. On-Policy Distillation：系统实证研究 OPD/OPSD The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes | MIT, ETH | arXiv:2605.11182 关键词：在策略蒸馏·自蒸馏·LLM后训练·失败分析·知识蒸馏 ⚠️ 前序问题：在策略蒸馏（OPD）和在策略自蒸馏（OPSD）作为 LLM 后训练方法前景广阔，但现有结果不一致——有时有效有时退化，何时有效、何时失败及其原因不清楚本文贡献：系统实证研究 OPD/OPSD 的成功与失败条件，识别三种失败机制：1）teacher 条件化在 student 前缀上的分布错配；2）有偏 TopK reverse-KL 梯度的优化不稳定；3）OPSD 特有的实例特定特权信息缺失问题；提出 stop-gradient TopK、RLVR-adapted teacher 和 SFT-stabilized student 等修复方案实验效果：为 OPD/OPSD 建立系统性指导：数学推理中对 teacher 选择和 loss 形式高度敏感，系统提示内化场景中 OPSD 有效批判点评：实证分析全面深入，三种失败机制的识别为该领域提供了重要的实践指导；修复方案虽有效但增加了训练复杂度趋势观察统一生成范式成熟化 — INSET 和 Qwen-Image-2.0 分别从交错指令和全能框架角度推进统一视觉生成——前者将图像提升为文本词汇实现精确绑定，后者通过 VLM+MDT 实现生成/编辑一体化，标志着统一生成从概念验证走向工程化自回归视频走向电影叙事 — CausalCine 首次将多镜头叙事引入自回归视频生成，通过内容感知记忆路由和少步蒸馏实现实时交互导演——AR 视频不再局限于单镜头延伸，开始具备电影级叙事能力连续扩散模型跨域迁移 — ELF 证明连续 Flow Matching 可以有效用于语言建模，DRoRAE 发现视觉分词器的对数线性缩放律——扩散/流模型的核心技术正在跨越模态边界寻找新的应用空间物理推理成为生成质量新维度 — PhyGround 构建了首个标准化物理推理基准并开源 PhyJudge-9B，揭示当前视频生成器「看起来真实但物理错误」的系统性问题——物理一致性正从加分项变为硬性要求 RL 对齐驱动生成自反思 — AlphaGRPO 通过分解可验证奖励在 UMM 上解锁了自反思精炼能力——模型不仅能生成，还能自主诊断和修正对齐失败，预示着生成模型将具备更强的自我改进能力人工智能炼丹君整理 | 2026-05-13
- 2026年05月13日
- 17 阅读
- 0 评论
- 0 点赞
2026-05-12
AIGC 每日速读|2026-05-12|Forcing-KV 视频扩散2.82倍加速突破实时今日 AIGC 论文速览今日共 10 篇 · 视频生成与加速 4 篇 · 图像生成与超分 2 篇 · 生成对齐与评估 2 篇 · 视频理解 1 篇 · 语音合成 1 篇重点论文标题列表 Forcing-KV：混合 KV cache 压缩策略 TIE：一种即插即用的区间感知 RoPE SWIFT：无训练框架 Unison：统一框架 Auto-Rubric as Reward：将 VLM 内隐偏好知识外化为今日论文速览 1. Forcing-KV：混合 KV cache 压缩策略 Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models | Nvidia, MIT, ETH Zurich, ZJU | arXiv:2605.09681 关键词：KV Cache压缩·自回归视频扩散·注意力头特化·流式视频生成·推理加速前序问题：自回归视频扩散模型（如 Self Forcing）实现了流式长视频生成，但历史帧的 KV cache 冗余导致注意力复杂度爆炸和显存瓶颈，严重限制可扩展性本文贡献：提出 Forcing-KV 混合 KV cache 压缩策略：发现注意力头具有稳定的功能特化（静态头负责跨 chunk 过渡和帧内保真，动态头负责帧间运动与一致性），对静态头执行结构化剪枝，对动态头执行基于片段相似度的动态剪枝实验效果：单卡 H200 达到 29+ FPS 并减少 30% cache 显存；在 LongLive 和 Self Forcing 上分别获得 1.35x 和 1.50x 加速（480P），1080P 场景加速比达 2.82x 批判点评：注意力头功能特化的发现颇具洞察，但实验仅在两个 AR 视频扩散模型上验证，是否推广到 CogVideoX 等非 AR 架构有待检验；静态/动态头的划分策略对新架构是否仍然成立存疑 2. TIE：一种即插即用的区间感知 RoPE TIE: Time Interval Encoding for Video Generation over Events | University of Science and Technology of China, Fudan University | arXiv:2605.10543 关键词：时间区间编码·多事件视频生成·RoPE·DiT·时间控制前序问题：现有视频生成器将时间表征为离散点（点式位置编码），无法表示时间区间和重叠事件——68% 的通用视频片段和 99% 的机器人/游戏片段包含事件重叠，但多事件生成器仍假设单一活跃 prompt 本文贡献：提出 Time Interval Encoding (TIE)，一种即插即用的区间感知 RoPE 泛化方案，将时间区间提升为 DiT 交叉注意力的一等原语；基于时间可积性和持续时间不变性两个原则推导出高效闭式 sinc 解实验效果：在 OmniEvents 数据集上将人工验证的时间约束满足率从 77.34% 提升至 96.03%，时间边界误差从 0.261s 降至 0.073s，同时保持视觉质量不损批判点评：理论推导优雅（sinc 解的闭式形式），但区间编码的假设依赖均匀核，非均匀时间分布场景的鲁棒性需进一步验证；数据集规模和事件复杂度有限 3. SWIFT：无训练框架 SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation | University of Science and Technology of China, Fudan University, Georgia Institute of Technology | arXiv:2605.09442 关键词：长视频生成·语义切换·无训练·自适应记忆·流式推理前序问题：流式长视频生成中的连续语义切换需要自适应记忆保持视觉连贯性，但现有方法在 prompt 边界重建缓存导致冗余计算，固定显存预算无法灵活适配语义变化本文贡献：提出 SWIFT（Semantic Windowing and Injection for Flexible Transitions）无训练框架：引入语义注入缓存增强而非重建记忆，逐头语义注入使每个注意力头按视频状态对齐度接收更新，自适应动态窗口按 prompt 阶段分配时间记忆实验效果：在保持生成质量的同时，单卡 H100 上达到 22.6 FPS，为多 prompt 长视频生成建立了显著更高效的方案批判点评：无训练方案的通用性令人印象深刻，但逐头注入的语义对齐度计算本身可能引入延迟；仅在因果视频扩散模型上验证，对双向注意力架构的适用性存疑 4. Unison：统一框架 Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation | Wuhan University, Westlake University | arXiv:2605.08729 关键词：音视频生成·多模态协调·语音合成·音效生成·人物视频前序问题：人物视频中的动作、语音和音效具有异质时序特征，联合生成时各模态难以保持一致对齐，导致运动-语音-环境音之间出现明显不匹配本文贡献：提出 Unison 统一框架：音频流内通过语义引导的协调策略解耦语音与音效生成（双向音频交叉注意力+语义条件门控），跨模态通过双向交叉模态 forcing 策略让更干净的模态引导更噪声的模态，配合渐进稳定策略实验效果：在音频感知质量和跨模态同步性两方面均达到 SOTA，有效缓解了语音主导问题并增强了声学清晰度批判点评：多模态协调机制设计精巧，但「更干净模态引导更噪声模态」的假设在实际复杂场景中不一定成立；人物视频数据集的多样性可能限制泛化能力 5. Auto-Rubric as Reward：将 VLM 内隐偏好知识外化为 Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria | Nanyang Technological University, Ant Group, MMLab, CUHK | arXiv:2605.08354 关键词：奖励建模·RLHF·评分准则·文生图对齐·可解释AI 前序问题：多模态生成模型的 RLHF 对齐将人类多维判断压缩为标量/成对标签，丢失了组合结构化偏好，导致奖励 hacking 和不可解释性本文贡献：提出 Auto-Rubric as Reward (ARR)：将 VLM 内隐偏好知识外化为 prompt 特定的评分准则（rubric），将整体意图分解为独立可验证的质量维度；进一步提出 Rubric Policy Optimization (RPO) 将多维评估蒸馏为稳健的二元奖励实验效果：在文生图和图片编辑基准上超越成对奖励模型和 VLM 裁判，证明瓶颈不在知识缺失而在缺乏分解接口批判点评：将隐式偏好显式化为 rubric 的思路新颖且可解释性强，但 rubric 生成依赖 VLM 质量——若 VLM 本身存在偏见则 rubric 会继承；RPO 的二元奖励简化是否在高维偏好空间中信息损失过大值得探讨 6. SMFSR：保持噪声起始点 Noise-Started One-Step Real-World Super-Resolution via LR-Conditioned SplitMeanFlow and GAN Refinement | Nanjing University of Science and Technology, ETH Zurich | arXiv:2605.09328 关键词：真实超分·单步推理·流匹配蒸馏·GAN精炼·噪声起始前序问题：扩散模型真实超分面临效率-质量权衡：多步方法质量好但慢，单步方法用直接 LR→HR 映射替代噪声起始过程从而削弱随机性，限制了真实纹理合成能力本文贡献：提出 SMFSR：保持噪声起始点+学习以 LR 为条件的直接噪声到 HR 映射；Interval Splitting Consistency 将多步轨迹蒸馏为单步平均速度预测；GAN 精炼阶段（DINOv3 判别器+变分分数蒸馏）补偿渐进精炼的缺失实验效果：在单步扩散超分方法中达到 SOTA 感知质量，保持快速单步推理的同时实现逼真的纹理细节合成批判点评：噪声起始+单步映射的设计巧妙地兼顾了多样性和效率，但 GAN 精炼阶段引入的额外训练成本和模式坍塌风险未充分讨论；DINOv3 判别器的选择缺乏消融对比 7. ExtraVAR：无训练策略 ExtraVAR: Stage-Aware RoPE Remapping for Resolution Extrapolation in Visual Autoregressive Models | Tsinghua University | arXiv:2605.10045 关键词：视觉自回归·分辨率外推·RoPE重映射·无训练·注意力校准前序问题：Visual Autoregressive（VAR）模型训练分辨率固定，直接外推到更高分辨率会出现三种失败模式：全局重复、局部重复和细节退化——根因是频段-阶段错配本文贡献：提出 Stage-Aware RoPE Remapping 无训练策略：为每个频段分配阶段特定的重映射规则，联合抑制三种失败模式；进一步提出 Entropy-Driven Adaptive Attention Calibration，通过分辨率无关的归一化熵量化注意力分散度并生成逐头缩放因子实验效果：在结构连贯性和细节保真度上一致优于现有分辨率外推方法，无需额外训练即可在 VAR 模型上实现高分辨率图像生成批判点评：对 VAR 生成过程中频段-阶段关系的分析深入且自洽，但无训练方法的质量上限受限于原始模型的表征能力；熵驱动校准的闭式解依赖于注意力分布的特定假设 8. OZ-TAL：在线零样本时序动作定位 OZ-TAL: Online Zero-Shot Temporal Action Localization | Harbin Institute of Technology | arXiv:2605.09976 关键词：零样本·在线动作定位·视觉语言模型·无训练·时序定位前序问题：在线时序动作定位方法通常在特定领域训练，面对未见动作时泛化能力有限，无法适应开放世界中任意视频流的实时动作检测本文贡献：提出在线零样本时序动作定位（OZ-TAL）新任务和无训练框架：利用现成视觉语言模型（VLM），引入额外机制增强视觉表征并缓解 VLM 固有偏差，在流式视频中检测从未见过的动作实验效果：在 THUMOS14 和 ActivityNet-1.3 上建立 OZ-TAL 基准，在离线和在线零样本设置下均大幅超越现有 SOTA 批判点评：零样本+在线检测的问题设定有实际价值，但无训练框架对 VLM 能力高度依赖——VLM 的时序理解弱点可能成为瓶颈；基准设置仍较为受限 9. WorldReasonBench：将视频生成评估重构为世界状态预测任务 WorldReasonBench: Human-Aligned Stress Testing of Video Generators as Future World-State Predictors | University of Waterloo, MBZUAI | arXiv:2605.10434 关键词：视频生成评估·世界模型·推理基准·状态预测·奖励模型前序问题：视频生成器被视为「世界模拟器」，但缺乏直接测试模型能否推理世界状态演化的基准——视频可以视觉逼真但物理/因果/信息一致性完全错误本文贡献：提出 WorldReasonBench：将视频生成评估重构为世界状态预测任务（初始状态+动作→未来视频），包含 436 个结构化测试用例覆盖 4 个推理维度和 22 个子类别；提出双重评估方法论（过程感知推理验证+多维质量评估）和 WorldRewardBench（~6K 专家标注偏好对）实验效果：揭示当前视频生成器在视觉逼真与世界推理之间存在持续鸿沟：视频可以看起来令人信服但在动力学、因果性或信息保存方面失败批判点评：评估框架设计系统全面，但 436 个测试用例的规模可能不足以覆盖开放世界的复杂性；「世界推理」的定义边界模糊——部分子类别更接近常识推理而非物理模拟 10. GibbsTTS：动力学最优调度器 Kinetic-Optimal Scheduling with Moment Correction for Metric-Induced Discrete Flow Matching in Zero-Shot Text-to-Speech | The University of Tokyo | arXiv:2605.09386 关键词：零样本TTS·离散流匹配·动力学最优调度·CTMC·语音合成前序问题：度量诱导离散流匹配（MI-DFM）利用 token-latent 几何进行离散生成，但受限于启发式调度器需要超参搜索和一阶 CTMC 求解器的有限步路径跟踪误差本文贡献：推导出动力学最优调度器（训练无关，以恒定 Fisher-Rao 速度遍历概率路径），并引入有限步矩校正调整跳转概率同时保持跳转目标分布不变；构建 GibbsTTS 零样本语音合成系统实验效果：在统一架构和大规模数据集的控制对比中，GibbsTTS 达到最佳客观自然度且在主观评估中优于掩码离散生成基线；说话人相似度在四个测试集中三个排第一批判点评：动力学最优调度的理论推导严谨（Fisher-Rao 恒速）且无需额外训练，但 codec-based TTS 的 token 离散化本身引入的信息损失是否被该方法放大未讨论趋势观察 KV Cache 压缩从 LLM 迁移到视频扩散 — Forcing-KV 证明了注意力头功能特化在视频扩散中同样成立，混合剪枝策略为 AR 视频模型开辟了 1080P 实时生成的路径。LLM 加速技巧向视觉生成的系统性迁移正成为趋势。时间控制从离散点走向连续区间 — TIE 将 RoPE 从时间点泛化到时间区间，使多事件重叠可被直接表示。这标志着视频生成对时间维度的建模精度正从帧级跃迁到事件级。无训练方法的崛起与边界 — SWIFT、ExtraVAR 和 OZ-TAL 均采用无训练范式，通过精巧的注意力操作或外部 VLM 实现新能力。无训练方法的共同局限在于受限于基础模型的表征天花板。奖励建模从隐式走向可解释分解 — ARR 将 RLHF 的黑盒偏好分解为可验证的 rubric 维度，WorldReasonBench 将视频评估分解为 22 个推理子类别——结构化、可解释的评估正在替代标量评分。单步生成的效率-质量帕累托前沿推进 — SMFSR 通过保持噪声起始+流匹配蒸馏+GAN 精炼，在单步推理中逼近多步质量。单步生成方法正在系统性地补全其相对于多步方法的各项短板。人工智能炼丹君整理 | 2026-05-12 更多 AIGC 论文解读，关注微信公众号「人工智能炼丹君」每日更新 · 论文精选 · 深度解读 · 技术脉络微信搜索人工智能炼丹君或扫描下方二维码关注
- 2026年05月12日
- 40 阅读
- 0 评论
- 0 点赞
2026-05-10
AIGC周末专题|2026-05-09|视频编辑最新进展本文为交互式 HTML 文档，建议点击此处全屏阅读获得最佳体验。
- 2026年05月10日
- 4 阅读
- 0 评论
- 0 点赞
2024-08-04
多模态预训练模型之CogVLM CogVLM：VISUAL EXPERT FOR LARGE LANGUAGE MODELS 被多个文生图模型广泛使用，包括SD3、可图用作Caption模型图像 & 文本分别建模的思想在SD3中的MMDIT中也被应用到 1. Motivation 浅层对齐的缺陷：例如BLIP2的QFormer或者LLAVA的MLP，作者认为是导致幻觉的一个重要原因浅层对齐 + 图文联合训练（LLM+Vision+adapter）会损害NLP的能力： Qwen-VL 等模型，会导致文本理解能力的灾难性遗忘【只要训练数据配比得当，就能避免这个问题？】 2. 主要贡献模型结构：引入视觉专家(QKV matrix+ FFN): 冻结LLM，100%保留文本对话能力视觉位置编码：图像特征共享一个位置编码，对于高分辨率理解有帮助。 3. 一些细节 3.1 消融实验(caption 任务 + VQA任务) 模型结构 & 微调的部分：【视觉专家 + MLP adapater】比其他更好，（为什么没有微调视觉+LLM+adapter全量实验，在下游任务上全量FT应该可以更好），该部分影响最大采用LLM的权重来初始化Visual Expert能够提升性能（应该能加速训练，和LLM expert融合会更容易）视觉部分，单向注意 or 双向注意的影响，使用单向注意反而更好视觉部分的自回归监督，没有提升 EMA可以多数任务上均能带来提升 3.3 训练数据细节 3.3.1 预训练数据 LAION-2B + COYO-700M-> 1.5B Visual grouding: 40M(GLIP v2预测的bounding box作为GT)，从LAION-115M中过滤出来的40M（75%的图片包含至少两个目标框） 3.3.2 SFT数据(50w) LLaVA-Instruct (corrected) LRV-Instruction LLaVAR in-house data 3.4 训练细节在SFT阶段，对LLM进行训练，学习率为base其他参数的10%，VIT始终保持固定
- 2024年08月04日
- 344 阅读
- 0 评论
- 0 点赞
2024-06-09
DiT文生图系列之Pixart-∑ PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation Motivation 高分辩率图像生成： Transformer架构中序列越长，计算复杂度是O(n^2)，越长的分辨率，对于计算推理时间和训练成本来说就越高。如何实现更好更快的生成是一大难点。高质量的图文对数据：爬虫图文对在图片质量和文本质量上都存在问题，不够美观，图文相关性弱。利用MLLM进行recaption通常会出现幻觉问题，提升MLLM的精度对于图文一致性非常重要。从弱到强的训练策略：对于低分辨率训练模型、vae模型切换，从已经训练好的base模型，继承之前的训练权重，如何更好的迁移到新模型非常重要，节约训练成本。主要贡献高分辩率图像生成根据self-attention的计算原理，KV矩阵的长度可以比原序列更短。注意力维度由NxN变成Nx(N/(RxR)): $QK^{T}$的维度变换(NC) (CxN/(RxR))-> N x (N/(RxR))。这样可以实现计算的压缩，并且相邻token存在语义的相似性，这样相当于引入了空间的局部先验。这里压缩的函数$f_{compress}$可以是global average pooling或者是stride为R的卷积层（可以用avg的kernel初始化加速训练）。高质量的图文对数据 PixArt-Σ采用更好的ShareCaptioner替代原始的LLava模型，幻觉率更低，训练时采用60%概率选择，让模型能够适用caption文本和更多样范式的其他文本。收集了8百万4K分辨率的真实摄影图片。从弱到强的训练策略: VAE: 从SD1.5的VAE替换到SDXL的VAE，2k训练steps 512分辨率提升到1024分辨率：结合位置编码插值(PE Interp)，可以实现更快的尺度适应 KV压缩并采用avg的kernel权重初始化可以加速训练继承原有的权重训练，PixArt-Σ具有非常高的训练效率一些思考局部窗口进行kv的压缩对于用Transformer架构的生成模型来说都是适用的，也可以用于自回归范式的图像生成模型
- 2024年06月09日
- 302 阅读
- 0 评论
- 2 点赞
2024-04-05
基于LLM做多模态生成系列文章-Make-A-Scene 基于LLM做多模态生成系列文章-Make-A-Scene Make a Scene (Meta-2022): Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors Motivation 提升生成的可控性：Make-A-Scene同期工作主要以文生图为主，生成结果的可控性低。（ControlNet之前的工作）人类感知优化：人类对于人脸/人体显著物体的畸形容忍程度较低，生成图片需要增强这些方面的能力主要贡献 1. 可控生成：实现除文本控制外，增加图片分割图的可控生成，结构一致性 2. 压缩优化：优化图片tokenizer，增强对显著物体(人脸/人体等)的重建效果 3. 推理优化：提出针对自回归图片生成模型的CFG方案【可以舍弃CLIP rerank的环节】,极大提升FID和图文对齐一些思考分割图与类别相关，推理过程中有OOD的类别，有一定的限制性提高对显著物体的重建效果，通过加入“感知Loss”实现，Face Embedding or Vgg Embedding进行约束 CFG对于提升图文一致性效果非常显著。其中系数经验值取3-5
- 2024年04月05日
- 355 阅读
- 0 评论
- 0 点赞
2024-03-24
基于LLM做多模态生成系列文章-Parti和Dalle 基于LLM做多模态生成系列文章-Parti和Dalle Parti: Scaling Autoregressive Models for Content-Rich Text-to-Image Generation Dalle: Zero-Shot Text-to-Image Generation 基于LLM的图片生成预期达成目标：复杂指令生成(多主体，属性绑定、空间位置关系等)、世界性知识模型模型结构图图片离散化方式自回归网络参数量生成图片大小 Dalle d-VAE Decoder-only 12B 256x256 Parti vit-VQGAN Encoder-Decoder 350M、750M、3B、20B 1024 = 256 + 4倍SR 参考链接 -知乎多模态预训练：DALL-E
- 2024年03月24日
- 386 阅读
- 0 评论
- 0 点赞
2024-03-24
基于LLM做多模态生成系列文章-VideoPoet VideoPoet: A Large Language Model for Zero-Shot Video Generation Motivation 用扩散模型还是LLM做视觉生成？：LLM相比于Diffusion的优势，基设好，模型架构统一，多任务友好。但是当前主流的视觉生成还是以扩散模型为主，主要的原因在于训练一个基础模型的成本很高，以SD开源模型为代表。基于开源SD进行优化实现成本小很多，通过各种adapter在下游任务做适配。扩散模型对于任意多模态生成不利于统一（比如，如何用扩散模型做QA问答？），LLM会更友好。主要贡献多模态生成统一架构，实现图片、视频、音频的自回归生成，其中文本采用T5，视觉采用Magvit-v2，音频采用SoundStream Encoder进行离散化级连的两阶段超分（两个2x超分）：超分辨率受限于token长度，采用局部窗口的attention方式。采用将水平、垂直、时间三个维度解耦。一些细节模型参数量：8B模型语言模型选择：UL2: Unifying Language Learning Paradigms 图文数据量：1B 视频数据量：270M（其中100M带有文字描述） tokeinzer词表：视觉采用Magvit-v2【26w词表】、音频：SoundStream Encoder【4096词表】一些思考关于文本编码：只用64个Token进行文字编码，并且使用预训练的文本编码器（T5-XL）。虽然提高了效率，但是受限预训练模型，并且转换到中文场景也会有限制（中文语义编码不准确）。端到端训练时，能够训练文本编码，如果有足够的数据量，理论上应该是更适配的。另外，该设计方案不考虑文本生成，不太符合全模态输出的设计。视觉Tokenizer：Tokenizer在整个框架中非常重要，提升压缩率，能用更少的token来表示，以提升自回归的效率。Tokenizer应该是分层级的，有些场景对细节要求很高，则需要非常低损失的压缩，如小人脸、文字。对于风景，需要压缩损失可以更大些，提升自回归的效率。预训练任务+下游多任务Finetune：预训练任务越多越丰富，在使用时zero-shot性能和需要的下游数据量越少。具体需要哪些预训练任务，需要仔细考量。
- 2024年03月24日
- 537 阅读
- 0 评论
- 0 点赞
2023-12-17
Imagen 2(Google DeepMind) Imagen2 概览参考链接 https://deepmind.google/technologies/imagen-2/
- 2023年12月17日
- 598 阅读
- 0 评论
- 2 点赞
2023-11-25
Emu & Emu-edit (Meta) Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack Emu的主要发现: 采用少量的人工挑选标注数据(2k)，即可大幅提升生成图像的美学质量。可能存在的问题：在少量数据集下Finetune需要严格控制训练steps，否则可能会出现过拟合问题、主体概念遗忘问题 Emu 训练测试流程 Emu 模型结构模型结构主要改进点：文本Encoder集成 CLIP和T5-XXL两种不同类型特征提升VAE编码的特征通道数，让有损压缩丢失的信息更少参考之前工作，利用noise-offset & 分尺度多阶段训练方法。前期学习语义生成，后期提升生成细节。 Emu Edit: Precise Image Editing via Recognition and Generation Tasks TODO
- 2023年11月25日
- 413 阅读
- 0 评论
- 3 点赞

粤ICP备2021042327号