今日 arXiv cs.CV 视觉生成相关论文共 10 篇。
方向分布:
涵盖 HuggingFace 热门 + arXiv 最新 159 篇候选中精选
Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items | Alibaba (Taobao & Tmall Group) | arXiv:2604.19748
关键词: 虚拟试穿·图像生成·扩散模型·商业部署
前序工作问题: 现有虚拟试穿方法在极端姿态、光照变化、运动模糊等真实场景下成功率低,无法满足商业级部署需求
贡献: 提出商业级虚拟试穿系统,支持 6 张参考图多品类合成(8 类时尚单品),集成端到端模型架构、可扩展数据引擎和多阶段训练范式,已在淘宝 App 大规模上线
实验结果: 已部署服务数百万日活用户,累计处理数千万请求;支持 8 大品类(上装/下装/裙装/连体衣/外套/鞋/帽/包),近实时推理速度,跨身份跨背景生成
批判点评: 工业系统论文,技术细节披露有限,核心架构和训练数据均未开源,学术复现性低;「数百万用户」的指标缺少与同类商业方案的定量对比
CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation | Zhejiang University, Alibaba | arXiv:2604.19636
关键词: 人物交互视频·物理一致·空间结构·协同生成
前序工作问题: 扩散模型在人物-物体交互视频中经常出现手部结构崩塌和物体穿透等物理不一致问题
贡献: 提出空间结构化协同生成框架,将人体与物体解耦为独立的 3D 空间表示,通过物理约束的交互建模确保手部-物体接触的物理一致性
实验结果: 在电商 HOI 视频场景中显著提升结构稳定性和物理真实感;手部-物体穿透率大幅下降,视频 FVD 和 FID 指标全面超越 AnimateDiff、DynamiCrafter 等基线
批判点评: 3D 解耦表示增加了计算复杂度,论文未给出推理速度数据;物理约束仅限于接触层面,对柔体变形和流体交互等更复杂物理现象的泛化性存疑
CityRAG: Stepping Into a City via Spatially-Grounded Video Generation | Google Research | arXiv:2604.19741
关键词: 城市视频生成·空间锚定·3D一致·可导航环境
前序工作问题: 现有视频生成模型缺乏空间锚定能力,无法生成与真实地点对应的 3D 一致可导航视频
贡献: 将视频生成与空间检索增强结合(RAG),利用真实城市数据实现空间锚定的 3D 一致视频合成,可生成真实地点的沉浸式可导航环境
实验结果: 生成视频在 3D 空间一致性和地理位置对应关系上优于 WonderWorld 和 SceneScape 等基线,FVD 和空间误差指标均有显著改善
批判点评: RAG 范式依赖高质量街景数据库覆盖度,对数据稀疏地区效果可能大打折扣;生成视频的分辨率和时长限制未明确说明,实用性有待验证
SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing | University of Electronic Science and Technology of China | arXiv:2604.19587
关键词: 照片编辑·审美推理·自动优化·统一框架
前序工作问题: 传统照片编辑需要用户具备充分的美学理解才能给出正确的调整指令,极大限制了普通用户的使用体验
贡献: 提出统一推理-生成-优化框架,自动理解图像美学缺陷并生成编辑方案,无需用户提供显式指令即可完成专业级照片优化
实验结果: 实现从「用户指令驱动」到「AI 自主推理驱动」的范式转变,在多种照片编辑场景下美学评分和用户满意度均优于 InstructPix2Pix 等基线
批判点评: 「美学」标准高度主观,论文的评估指标能否充分反映真实用户偏好值得商榷;自动编辑可能与专业摄影师的创作意图冲突,缺少人机协作模式设计
UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models | Tsinghua University, ByteDance | arXiv:2604.18518
关键词: 离散扩散·GRPO·强化学习·训练稳定性
前序工作问题: 将 GRPO 直接应用于均匀离散扩散模型(UDM)会导致训练不稳定和性能提升有限
贡献: 系统分析了 UDM 中 GRPO 不稳定的根源,提出针对离散扩散模型的稳定高效 GRPO 变体,解决梯度方差和策略漂移问题
实验结果: 在离散文本生成和图像生成任务上显著提升训练稳定性和生成质量,梯度方差降低 2-3 个量级,策略漂移控制在可接受范围内
批判点评: 实验仅在离散扩散模型上验证,未证明方法是否可迁移到连续扩散模型;与 DPO/PPO 等替代强化学习算法的对比不够充分
ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis | SSE, CUHK-Shenzhen | arXiv:2604.19720
关键词: 人体视频生成·图像优先·姿态控制·SMPL-X
前序工作问题: 人体视频生成需要同时建模外观、运动和相机视角,在有限多视角数据下难以兼顾可控性和视觉质量
贡献: 提出「图像优先」策略,先通过预训练图像模型学习高质量人体外观,再结合 SMPL-X 运动引导和无需训练的视频扩散时序精炼,实现姿态和视角可控的人体视频生成
实验结果: MVHumanNet++ 上 FVD 0.275(vs Wan-Ani 0.403 降低 31.8%),FID 36.23(vs Qwen 46.33 降低 21.8%),LPIPS 0.165 最优;用户研究偏好率 41.8%(视角一致性),显著领先
批判点评: 图像优先策略将时序一致性完全托付给后续精炼阶段,快速运动和复杂遮挡场景可能出现时序伪影;SMPL-X 依赖限制了对穿裙装等宽松服饰的建模能力
UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction | NTU, Intel Labs | arXiv:2604.19221
关键词: 全双工语音·统一前端·自回归·流式推理
前序工作问题: 传统级联语音处理管线存在累积延迟和错误传播问题,现有端到端模型仍依赖独立的前端组件(VAD、转场检测等)
贡献: 提出首个统一音频前端 LLM,将 VAD、转场检测、说话人识别、ASR 和 QA 五大前端任务统一为单一自回归序列预测问题,支持 600ms 流式音频块输入
实验结果: VAD F1 97.57%(SOTA),极端噪声 2dB 下 ASR WER 5.34(vs Qwen3-Omni 38.60 降低 86%),中断检测 100% 准确率,真实场景 Online-test WER 13.75(vs Qwen3-Omni 17.83 降低 23%)
批判点评: 统一五大任务到一个模型可能导致各任务间的性能权衡,论文未充分讨论多任务冲突;600ms 块大小对于实时对话仍有可感知延迟,距离真正的零延迟交互尚有差距
Embedding Arithmetic: A Lightweight, Tuning-Free Framework for Post-hoc Bias Mitigation in Text-to-Image Models | Fraunhofer IKS | arXiv:2604.18167
关键词: T2I公平性·嵌入空间·无需训练·偏见缓解
前序工作问题: 文生图模型放大社会偏见(如性别、种族),现有去偏方法需要修改模型权重或提示词,且难以平衡公平性与语义保真
贡献: 提出推理时嵌入空间算术方法,通过分析和校正条件嵌入空间中的偏见结构来缓解社会偏见,无需修改模型权重或数据集,同时提出概念一致性评分(CCS)替代 CLIP Score
实验结果: FLUX 上平均性别熵 0.88(vs 默认 0.15 提升 487%),种族熵 0.86(vs 默认 0.16 提升 438%),CCS 保持 0.60 与默认模型持平;SD 3.5-Large 上效果一致
批判点评: 嵌入空间的「偏见方向」定义高度依赖先验标注,对交叉性偏见(如性别×种族)的处理能力不明;CCS 指标虽弥补了 CLIP Score 的不足,但其自身的有效性需要更大规模的人类评估验证
Learning to Credit the Right Steps: Objective-aware Process Optimization for Visual Generation | NWPU, Kuaishou | arXiv:2604.19234
关键词: 视觉生成·过程优化·GRPO·信用分配
前序工作问题: 现有 GRPO 训练将多维度奖励压缩为单一标量并均匀传播到整个去噪轨迹,忽略了不同去噪步骤的阶段性功能差异
贡献: 提出目标感知轨迹信用分配框架(OTCA),包含轨迹级信用分解和多目标信用分配两大模块,将粗粒度奖励信号转化为时间步感知的结构化训练信号
实验结果: 图像生成 CLIP-T 0.3071(vs Flux 基线 0.2682 提升 14.5%),ImageReward 1.1998(vs DanceGRPO 1.0172 提升 17.8%);视频生成 VBench 总分 82.01(vs 基线 81.26),动态度提升 5.0%,空间关系提升 6.4%
批判点评: 信用分配的时间步粒度假设(早期步骤负责构图、晚期负责细节)过于简化,不同架构和调度器下该假设可能不成立;方法引入额外的奖励分解计算,训练成本增加但论文未量化开销
One-Step Diffusion with Inverse Residual Fields for Unsupervised Industrial Anomaly Detection | UESTC | arXiv:2604.18393
关键词: 单步扩散·异常检测·逆残差场·推理加速
前序工作问题: 扩散模型在工业异常检测中性能优异但迭代去噪导致推理速度慢
贡献: 提出 OSD-IRF,基于训练好的 DDPM 噪声函数预测逆残差场(IRF),通过评估 IRF 在高斯分布下的概率密度实现单步异常检测,发现异常在 IRF 空间中可区分这一关键现象
实验结果: MVTec-AD mAD 85.7(SOTA),MPDD mAD 83.8(vs InvAD 80.1 提升 3.7),推理速度 133-212 FPS(vs InvAD 88-120 加速约 1.5x,vs DiAD 0.1 FPS 加速 1000x+)
批判点评: 相对于一步蒸馏方法加速幅度有限;IRF 的高斯分布假设在复杂工业场景下可能不成立,对分布外异常类型的鲁棒性需要更多验证
人工智能炼丹君 整理 | 2026-04-23
评论 (0)