首页
常用链接
关于
Search
1
Pytorch DDP
2,428 阅读
2
Pytorch 常见问题
1,478 阅读
3
视频时序切分
1,273 阅读
4
2022年微信大数据比赛(多模态短视频分类)总结
991 阅读
5
中文场景下的CLIP图文预训练
972 阅读
分布式训练
AIGC
多模态理解
阅读
论文阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
默认分类
AI论文速读
AIGC论文
Search
标签搜索
AIGC
论文速读
人工智能
DiT
ai
视频生成
扩散模型
深度解读
专题调研
python
推理加速
图像编辑
多模态
图像生成
diffusion
transformer
Pandas
稀疏注意力
llm
蒸馏
Jefxiong
累计撰写
67
篇文章
累计收到
8
条评论
首页
栏目
分布式训练
AIGC
多模态理解
阅读
论文阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
默认分类
AI论文速读
AIGC论文
页面
常用链接
关于
搜索到
2
篇与
默认分类
的结果
2026-04-07
AIGC 每日速读|2026-04-07|SC-DMD蒸馏2-4步高质量视频生成Salt
AIGC 视觉生成领域 · 每日论文解读 (2026-04-07) 人工智能炼丹师 整理 | 共 10 篇论文 | 重点深度解读 1 篇 今日核心看点 视频蒸馏加速 分布匹配 多智能体编辑 物理合理性 HDR重建 今日概览 今日 arXiv cs.CV 视觉生成相关论文共 10 篇,重点解读 1 篇。 方向分布: 视频生成加速 — Salt, SCOPE (2篇) 图像生成与编辑 — VOSR, CAMEO, LumaFlux, EditManifold (4篇) 视频生成与物理建模 — MMPhysVideo (1篇) 音频生成 — DynFOA, GAP-URGENet (2篇) 评测与基准 — ImagenWorld (1篇) CVPR 2026 ×1 | ICLR 2026 ×1 | ICASSP 2026 ×1 重点论文深度解读 1. Salt 自一致分布匹配蒸馏+缓存感知训练:仅2-4步实现高质量视频生成 | Hong Kong University of Science and Technology, Vivix Group | arXiv:2604.03118 关键词: 视频生成加速, 分布匹配蒸馏, 自一致性正则, KV缓存感知, 自回归视频生成 研究动机 核心问题: 将视频扩散模型蒸馏到2-4步推理时,DMD的局部训练信号导致多步去噪更新组合产生轨迹漂移,一致性蒸馏则过于保守导致模糊 将视频生成模型蒸馏到极低推理步数(2-4步NFEs)对实时部署至关重要但仍极具挑战。轨迹式一致性蒸馏在复杂视频动态下变得保守,导致外观过度平滑和运动微弱。分布匹配蒸馏(DMD)可恢复清晰样本,但其局部训练信号没有显式规范去噪更新如何跨时间步组合,导致多步推理时产生轨迹漂移。Salt提出自一致分布匹配蒸馏(SC-DMD),显式约束连续去噪更新的终点一致组合,结合缓存分布感知训练解决自回归视频生成中的KV缓存质量退化问题。 前序工作及局限: Consistency Distillation:轨迹式蒸馏在复杂视频动态下变得保守,导致外观过度平滑和运动微弱 DMD (Distribution Matching Distillation):分布匹配梯度恢复锐利样本,但局部训练信号无法规范去噪更新的跨时间步组合,多步推理产生轨迹漂移 Shortcut Models / AYF:提出半群组合约束思想,但作为独立回归目标会导致模式平均化 Self Forcing:开创自回归实时视频生成范式,但长时间滚展时KV缓存质量退化导致语义漂移 与前序工作的本质区别: Salt将半群缺陷约束作为DMD框架内的正则化器(而非独立回归目标),既保留DMD的模式寻求分布对齐,又修正多步组合漂移。同时首次引入KV缓存质量参数化条件训练 方法原理 Salt框架包含两大核心技术创新。(1) 自一致分布匹配蒸馏(SC-DMD):在DMD基础上引入轻量级半群缺陷(Semigroup Defect)正则化器,约束学习到的传输算子在组合时保持终点一致性。具体而言,对任意三元组时间步(ts,tm,te),要求从ts一步跳到te的结果与从ts经tm两步跳到te的结果在终点对齐,DMD负责分布匹配的锐利样本,半群正则修正多步组合漂移。(2) 缓存分布感知训练:针对自回归设定,将KV缓存视为质量参数化条件。采用混合步数滚展策略(K从{2,4,8}中随机采样),让模型训练时接触从高质量到低质量的完整缓存分布。同时引入缓存条件参考对齐损失,通过TRD风格的关系特征空间对齐,将低质量缓存下的输出向高质量参考靠拢。SC-DMD正则化仅在K=8时激活(最长组合链受益最大),对齐损失仅在K为2或4时激活。 核心创新 首次识别并解决DMD的组合性缺陷:DMD的局部训练信号无法保证多步去噪更新组合时的一致性 自一致分布匹配蒸馏(SC-DMD):半群缺陷正则化器约束连续去噪步的终点一致组合,兼顾DMD的分布匹配锐度 KV缓存作为质量参数化条件变量:混合步数滚展覆盖完整缓存质量谱 缓存条件参考对齐:TRD关系特征空间对齐低质量缓存输出到高质量参考 框架无关性:兼容非自回归(Wan 2.1)和自回归(Self Forcing/LongLive/Causal Forcing)多种范式 实验结果 非自回归I2V(Wan 2.1 14B, 4步):VBench-I2V得分93.90(最佳),背景一致性从92.79提升到95.97,运动平滑度从97.99到98.37,时间闪烁从95.21到97.41。非自回归T2V(Wan 2.1 1.3B):4步Total Score 83.19(vs DMD 82.78),2步Total Score 82.85(vs DMD 82.41)。自回归实时生成:在Self Forcing、LongLive、Causal Forcing三个基线上均实现一致提升,无额外推理开销。消融实验证明SC-DMD正则化和混合步数训练各自贡献显著且互补。 图表详解 SC-DMD概念对比 半群缺陷正则与Shortcut Models、Flow Map Distillation的关系。Salt将半群约束作为DMD框架内正则化器 消融实验与半群缺陷分析 不同step数下半群缺陷值变化,SC-DMD有效压制多步推理质量退化 视觉效果对比 Salt与DMD基线在不同步数下的视频生成质量对比,展示组合一致性改善 批判性点评 新颖性: 首次识别并形式化DMD的组合性缺陷(半群缺陷),SC-DMD将半群约束作为DMD正则化器的思路简洁有效,填补了分布匹配蒸馏和轨迹一致性之间的理论空白 可复现性: 框架描述清晰,算法伪代码完整,基于开源的Wan 2.1和Self Forcing实现。但混合步数训练增加GPU显存开销,对齐损失的margin超参数delta敏感度分析不足 影响力: 对视频扩散蒸馏领域有重要推动作用。SC-DMD框架通用性强,兼容非自回归和自回归范式。缓存感知训练对实时自回归视频生成有直接实用价值,为2-4步高质量视频生成铺平道路 深度点评: SC-DMD组合一致性突破 — Salt首次识别并解决DMD的多步组合漂移问题,半群缺陷正则化器设计简洁有效。但Dynamic Degree指标下降(58.46→52.85)暗示稳定性与动态性的权衡值得后续探索 免训练加速潜力巨大 — SCOPE在MAGI-1和SkyReels-V2上实现4.73x免训练加速,三模态调度(缓存/预测/重计算)是一个有洞察力的设计,对工业部署有直接价值 物理先验正确方向 — MMPhysVideo将多模态物理先验融入视频生成,方向正确但伪RGB格式的表达力有限。DynFOA在声学层面引入3DGS物理一致性,丰富了物理建模的维度 技术演进定位: 视频扩散蒸馏从单步质量(DMD)走向多步一致性(SC-DMD)的关键过渡,自回归实时生成的缓存退化问题的首个系统性解决方案 可能的后续方向: SC-DMD正则可推广到更多扩散蒸馏场景(图像/3D等) 缓存感知训练可能成为所有自回归扩散模型的标准组件 Dynamic Degree下降提示需要平衡稳定性与动态表现力的研究 与SCOPE等免训练加速方法互补组合可能进一步降低推理成本 其余论文速览 1. VOSR:首个证明无需多模态预训练即可实现高质量生 VOSR: A Vision-Only Generative Model for Image Super-Resolution 关键词: 超分辨率·仅视觉·生成模型·CFG替代·CVPR 2026 贡献: 首个证明无需多模态预训练即可实现高质量生成式超分的框架。视觉语义引导+恢复导向CFG+多步→单步蒸馏,CVPR 2026 效果: 训练成本不到T2I-based方法的十分之一,单步推理即可获得竞争力感知质量,结构保真且减少幻觉 2. CAMEO:多智能体图像编辑协调器 CAMEO: A Conditional and Quality-Aware Multi-Agent Image Editing Orchestrator 关键词: 图像编辑·多智能体·质量感知·闭环反馈·条件编辑 贡献: 多智能体图像编辑协调器,将条件编辑重构为质量感知反馈驱动流程,规划→结构化提示→假设生成→自适应锚定的闭环迭代 效果: 在异常插入和人体姿态切换任务上,平均比SOTA编辑模型持续实现20%+胜率提升 3. SCOPE:免训练自回归视频扩散加速框架 Not All Frames Deserve Full Computation: Accelerating AR Video Generation via Selective Computation and Predictive Extrapolation 关键词: 视频生成加速·免训练·自回归·三模态调度·4.73x加速 贡献: 免训练自回归视频扩散加速框架,三模态调度(缓存/预测/重计算)+基于噪声水平的泰勒外推+选择性活动帧区间计算 效果: MAGI-1和SkyReels-V2上实现高达4.73x加速,质量与原始输出相当,优于所有免训练基线 4. MMPhysVideo:首个通过联合多模态建模扩展视频物理合理性的框架 MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling 关键词: 视频生成·物理合理性·多模态建模·知识蒸馏·伪RGB 贡献: 首个通过联合多模态建模扩展视频物理合理性的框架,将语义/几何/轨迹转为统一伪RGB格式+双向控制教师架构+蒸馏到单流学生 效果: 无额外推理成本,在各基准上持续提升物理合理性和视觉质量,附带MMPhysPipe数据构建管线 5. LumaFlux:首个基于DiT的物理+感知引导SDR LumaFlux: Lifting 8-Bit Worlds to HDR Reality with Physically-Guided Diffusion Transformers 关键词: HDR重建·DiT·物理引导·逆色调映射·SDR-HDR 贡献: 首个基于DiT的物理+感知引导SDR→HDR重建模型,PGA模块注入亮度/空间/频率线索+PCM层稳定色度纹理+轻量有理二次样条解码器 效果: 以最少额外参数实现卓越亮度重建和感知色彩保真度,在多基准上超越SOTA。首个大规模SDR-HDR语料库 6. DynFOA:集成动态场景重建(3DGS)与条件扩散 DynFOA: Generating First-Order Ambisonics with Conditional Diffusion for Dynamic 360-Degree Videos 关键词: 空间音频·360度视频·条件扩散·3DGS·Ambisonics 贡献: 集成动态场景重建(3DGS)与条件扩散,从360°视频合成物理一致的一阶Ambisonics空间音频,M2G-360数据集(600片段) 效果: 在空间准确性、声学保真度、分布匹配和感知沉浸体验上持续优于现有方法 7. EditManifold:首个统一理论框架分析扩散图像编辑的五大核 Editing on the Generative Manifold: A Theoretical and Empirical Study of Diffusion-Based Image Editing Trade-offs 关键词: 扩散编辑·理论分析·生成流形·多轮编辑·权衡分析 贡献: 首个统一理论框架分析扩散图像编辑的五大核心需求(可控性/忠实度/一致性/局部性/质量),推导引导强度与反转误差的数学界限 效果: 刻画多轮编辑累积效应,对代表性范式进行基准测试,为扩散编辑提供理论指导 8. GAP-URGENet:生成-预测融合语音增强框架 GAP-URGENet: A Generative-Predictive Fusion Framework for Universal Speech Enhancement 关键词: 语音增强·生成-预测融合·48kHz·ICASSP 2026·冠军 贡献: 生成-预测融合语音增强框架,生成分支做自监督表示域全栈恢复+预测分支做语谱图增强+后处理融合+带宽扩展到48kHz,ICASSP 2026 效果: URGENT 2026挑战赛客观评估排名第一,盲测阶段顶级表现 9. ImagenWorld:3.6K条件集+20K人工细粒度标注的图 ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks 关键词: 图像生成评测·压力测试·可解释评估·ICLR 2026·基准测试 贡献: 3.6K条件集+20K人工细粒度标注的图像生成压力测试基准,6种任务×6种领域,可解释评估模式标记对象级错误,ICLR 2026 效果: 测试14个模型揭示:编辑>生成难度,文本密集域是短板,闭源领先但差距在缩小,VLM指标Kendall准确率0.79 趋势观察 视频生成加速成主战场 — Salt(SC-DMD蒸馏)和SCOPE(免训练4.73x)分别从训练和推理两端加速视频生成 物理一致性受关注 — MMPhysVideo引入多模态物理先验,DynFOA通过3DGS重建实现声学物理一致 评测体系走向深度 — ImagenWorld的可解释评估和EditManifold的理论分析推动评测从分数到诊断 人工智能炼丹师 整理 | 2026-04-07
2026年04月07日
5 阅读
0 评论
1 点赞
2026-04-06
AIGC 每日速读|2026-04-06|物理一致性视频编辑新范式VOID
AIGC 视觉生成领域 · 每日论文解读 (2026-04-06) 人工智能炼丹师 整理 | 共 10 篇论文 | 重点深度解读 1 篇 今日核心看点 VOID:因果推理驱动的视频对象删除 DynaVid:合成光流驱动高动态视频生成(CVPR 2026) SteerFlow / FlowSlider:免训练 Rectified Flow 图像编辑 LatentUM:潜在空间统一多模态模型 PFluxTTS:双解码器混合流匹配语音合成 CLPIPS:AI 生成图像个性化评测指标 今日概览 今日 arXiv cs.CV 视觉生成相关论文共 10 篇,重点解读 1 篇。 方向分布: 视频生成与编辑: 4 篇 (VOID, DynaVid, ActionParty, BidirInterp) 图像生成与编辑: 3 篇 (SteerFlow, FlowSlider, ReflectGen) 统一/多模态模型: 1 篇 (LatentUM) 音频/语音合成: 1 篇 (PFluxTTS) 评测方法: 1 篇 (CLPIPS) 顶会收录: CVPR 2026 (DynaVid) 重点论文深度解读 1. VOID 因果推理驱动的视频对象与交互删除:物理一致性视频编辑新范式 | Netflix, INSAIT (Sofia University) | arXiv:2604.02296 关键词: 视频编辑, 对象删除, 因果推理, 物理一致性, 反事实生成 研究动机 核心问题: 视频对象移除后如何保持物理一致性?现有方法只能修复外观伪影,无法重写因果交互。 现有视频对象移除方法只能修复外观层面的伪影(如阴影和反射),当被移除对象与场景存在物理交互(如碰撞、支撑)时,无法推理并重写下游物理动态,导致结果不合物理常识。VOID 提出用因果推理指导视频扩散模型,在对象移除后生成物理一致的反事实场景。 前序工作及局限: ProPainter (2023):基于光流传播的视频修复,擅长空间填充但无物理推理能力 Generative Omnimatte (2024):分层视频效果分离,三色掩码条件引导,但仅支持阴影/反射等外观效果 ROSE (2025):基于扩散的视频对象移除,改善了时序一致性但仍限于外观修复 Go-with-the-Flow (2025):Flow-Warped Noise 提升视频扩散的时序连贯性,启发 VOID 的第二遍方案 与前序工作的本质区别: VOID 首次引入因果推理:通过反事实数据监督 + VLM 空间推理 + 四色掩码编码,让视频扩散模型学会重写下游物理交互,而非简单填充。 方法原理 VOID 基于 CogVideoX 扩散 Transformer 构建,采用两遍生成策略。核心创新包括:(1) 反事实数据集监督——使用 Kubric 刚体动力学和 HUMOTO 人体运动捕捉数据,生成约 6400 组配对反事实视频(有/无目标对象),提供物理一致的训练监督。(2) 四色掩码(Quadmask)条件——扩展传统三色掩码为四色:黑色(待移除对象)、深灰(对象与受影响区域重叠)、浅灰(受影响区域)、白色(保持不变),消除掩码歧义。(3) VLM 引导推理——推理时使用视觉语言模型(Gemini 3 Pro)识别受移除对象影响的区域,结合 SAM3 分割,预测反事实轨迹并生成四色掩码。(4) 第二遍 Flow-Warped Noise 稳定——第一遍生成正确的反事实轨迹但可能出现变形,第二遍使用光流对齐噪声保持物体刚性。VLM 自动判断是否需要第二遍。 核心创新 首个因果推理驱动的视频对象删除框架,移除对象后能重写下游物理交互(碰撞停止、支撑消失后自由落体等) 四色掩码(Quadmask)条件机制,解决对象移除与受影响区域重叠时的歧义问题 反事实数据集监督:Kubric 刚体动力学 + HUMOTO 人体运动捕捉,合成 6400+ 配对视频 双遍生成策略:第一遍合成反事实轨迹,第二遍 Flow-Warped Noise 修复变形 VLM 引导空间推理:Gemini 3 Pro + SAM3 自动生成推理时四色掩码 人类偏好 64.8% 胜率大幅超越 Runway 等商业系统 实验结果 人类偏好研究(25人/125组比较):VOID 64.8% 胜率,远超 Runway 18.4%、Gen-Omnimatte 11.2%、DiffuEraser 4.0%。VLM-as-Judge 评估(Gemini 3 Pro/GPT-5.2/Qwen 3.5 三组)全部排名第一,Interaction & Physics 维度提升最显著(3.66 vs Runway 2.61)。合成数据集指标:PSNR 31.49(最佳)、DreamSim 0.0658(最佳)、DINOv2 0.9222(最佳)、FVD 260.31(最佳,vs 第二名 437.88 降低 40%)。消融实验证明:混合 Kubric+HUMOTO 数据优于单一数据集,四色掩码优于三色掩码(26.12 vs 23.39 总分)。 图表详解 反事实数据集样例 Kubric 刚体碰撞和 HUMOTO 人体运动捕捉的配对反事实视频。上排为原始视频(红色标注目标对象),下排为移除对象后的反事实模拟,展示物理交互如何被正确重写。 双遍生成效果对比 左列第一遍生成正确的反事实轨迹但出现结构变形(吉他弯曲、球体拉伸),右列第二遍使用光流对齐噪声后保持了物体刚性,细节显著改善。 真实场景定性比较 与 Runway/Gen-Omnimatte/ProPainter 的对比:壶铃移除后枕头应弹回、浮标移除后无碰撞、双车相撞移除后正确还原。VOID 在物理一致性和伪影消除上全面领先。 多场景泛化结果 VOID 泛化到训练数据未涵盖的真实场景:积木多米诺骨牌停止、气球浮起、保龄球碰撞、搅拌机不启动等,展示强大的物理推理能力。 批判性点评 新颖性: 核心创新在于将因果推理引入视频编辑,从外观修复升级为世界模拟。四色掩码和反事实数据监督都是扎实的工程创新。但每个单独技术(VLM 推理、Flow-Warped Noise、扩散微调)都有前置工作,贡献在于系统整合。 可复现性: 依赖 CogVideoX 5B + Gemini 3 Pro + SAM3 三个外部模型,推理成本高。Kubric 和 HUMOTO 数据集可复现。代码和项目页面已公开。 影响力: 短期:将推动视频编辑工具从简单修复走向物理一致性编辑。中期:反事实推理数据集构建方法可迁移到其他世界模型训练。长期:为视频生成模型成为世界模拟器开辟路径。 深度点评: 因果推理驱动的视频编辑新范式 — VOID 首次证明:结合 VLM 因果推理 + 物理模拟反事实数据,可以让视频扩散模型学会重写下游物理交互。64.8% 人类偏好胜率大幅超越 Runway 等商业系统。但依赖 Gemini 3 Pro 推理能力,VLM 质量是系统瓶颈。 合成数据泛化到真实世界 — 仅用 6400 组 Kubric+HUMOTO 合成视频训练,就能泛化到真实世界的积木、保龄球、气球等多种未见过的物理交互。证明合成物理模拟作为训练监督的巨大潜力。 从外观修复到世界模拟 — 传统视频修复只做空间填充,VOID 要求模型理解因果关系:移除碰撞发起者后下游碰撞应停止,移除支撑后物体应自由落体。这是视频编辑从工具走向智能的关键一步。 技术演进定位: 开创视频编辑从外观修复到世界模拟的新方向。证明合成物理模拟数据可以让模型泛化到真实世界的因果推理。 可能的后续方向: 扩展到更复杂的物理场景(流体、柔体、多阶因果链) 与更强的世界模型结合,实现物理动力学的精确预测 无需 VLM 的端到端因果推理 其余论文速览 1. DynaVid:合成光流驱动高动态视频生成 DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data 关键词: 视频生成·合成运动数据·光流·运动解耦·CVPR 2026 贡献: 合成光流数据→运动-外观解耦→高动态视频生成,两阶段框架(运动生成+视频渲染),CVPR 2026 效果: 利用 CG 管线渲染光流训练运动生成器,保留真实视频视觉真实感。在剧烈人体运动和极端相机运动场景验证有效 2. SteerFlow:免训练 Rectified Flow 图像编辑 SteerFlow: Steering Rectified Flows for Faithful Inversion-Based Image Editing 关键词: 图像编辑·Rectified Flow·免训练·保真度·多轮编辑 贡献: 基于 Rectified Flow 的免训练图像编辑框架,摊销定点求解器+轨迹插值+自适应掩码,理论保证源保真度 效果: 在 FLUX.1-dev 和 SD 3.5 Medium 上超越现有方法。支持多轮编辑不累积漂移 3. LatentUM:潜在空间统一多模态模型 LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model 关键词: 统一模型·潜在空间·跨模态推理·视觉生成·世界建模 贡献: 潜在空间统一多模态模型,消除视觉理解和生成之间的像素空间中介,支持交错跨模态推理 效果: 视觉空间规划 SOTA,自我反思改进视觉生成,支持世界建模预测未来视觉状态 4. FlowSlider:滑块式免训练连续图像编辑 FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition 关键词: 图像编辑·连续控制·正交分解·免训练·Rectified Flow 贡献: 将编辑更新分解为正交的保真度项+导向项,实现滑块式连续强度控制的免训练图像编辑 效果: 基于 Rectified Flow 模型无需后训练,保真度项保持身份结构,导向项驱动语义编辑,平滑可靠 5. ActionParty:多主体视频世界模型 ActionParty: Multi-Subject Action Binding in Generative Video Games 关键词: 世界模型·多主体控制·动作绑定·视频游戏·状态token 贡献: 首个可同时控制多达 7 名玩家的视频世界模型,引入主体状态 token + 空间偏置解耦全局渲染与动作控制 效果: 在 Melting Pot 46 个环境中验证,动作跟随准确性和身份一致性显著提升,Snap Research 6. PFluxTTS:双解码器混合流匹配 TTS PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion 关键词: TTS·Flow Matching·跨语言克隆·双解码器·48kHz 贡献: 双解码器混合流匹配 TTS,推理时向量场融合+FLUX 解码器跨语言克隆+48kHz PeriodWave 声码器 效果: MOS 4.11 持平 ChatterBox,WER 降低 23%(6.9% vs 9.0%),说话人相似度超越 ElevenLabs(+0.32 SMOS) 7. BidirInterp:视频扩散双向循环一致性 Can Video Diffusion Models Predict Past Frames? Bidirectional Cycle Consistency for Reversible Interpolation 关键词: 视频插值·循环一致性·双向扩散·方向token·课程学习 贡献: 视频扩散双向循环一致性框架,可学习方向 token 统一前向合成和后向重建,课程学习从短到长 效果: 37帧和73帧插值任务均 SOTA,推理无额外开销(循环约束仅训练时),运动平滑度和动态控制大幅提升 8. CLPIPS:AI 生成图像个性化评测指标 CLPIPS: A Personalized Metric for AI-Generated Image Similarity 关键词: 评测指标·图像相似度·个性化·LPIPS·人类对齐 贡献: LPIPS 的个性化扩展,通过人类排序数据微调层组合权重,对齐 AI 生成图像评估与人类判断 效果: Spearman 等级相关和 ICC 均优于原始 LPIPS,证明有限人类数据微调即可显著提升感知对齐 9. ReflectGen:扩散模型物体反射生成 Reflection Generation for Composite Image Using Diffusion Model 关键词: 反射生成·合成图像·扩散模型·DEROBA数据集·类型感知 贡献: 首个大规模物体反射数据集 DEROBA + 扩散模型反射生成方法,注入反射位置和外观先验,类型感知设计 效果: 生成物理一致、视觉逼真的反射效果,为合成图像反射生成建立新基准 趋势观察 视频编辑从外观修复升级为因果推理 — VOID 用 VLM 推理物理交互,移除对象后重写下游动态,FVD 降低 40% 免训练编辑方法持续深化 — SteerFlow/FlowSlider 均基于 Rectified Flow 的免训练方案,数学保证源保真度 统一模型走向潜在空间融合 — LatentUM 消除像素中介,在共享语义潜空间内实现理解-生成-推理闭环 合成运动数据突破动态视频瓶颈 — DynaVid 用 CG 渲染光流解耦运动与外观,CVPR 2026 证明合成数据可学到真实世界动态 混合架构成为 TTS 新标准 — PFluxTTS 双解码器+向量场融合,跨语言克隆超越 ElevenLabs,MOS 达 4.11 人工智能炼丹师 整理 | 2026-04-06
2026年04月06日
8 阅读
0 评论
0 点赞
粤ICP备2021042327号