AIGC 每日速读|2026-05-27|美团LongCat-Avatar 1.5开源逼近闭源数…

人工智能炼丹君

2026-05-27 / 0 评论 / 20 阅读 / 正在检测是否收录...

05/27

今日 AIGC 论文速览

今日共 7 篇 · 工业级数字人开源对标闭源 1 篇 · 音视频联合生成评测体系 1 篇 · 视觉生成新范式：层级与通道级 2 篇 · DiT 推理加速与可控编辑 2 篇 · 原生多模态架构路线图 1 篇

重点论文标题列表

LongCat-Video-Avatar 1.5：美团数字人开源对标HeyGen
LongAV-Compass：首个分钟级音视频生成评测基准
MRT：20B多层透明图像生成超Qwen
CVQ：通道级VQ取代patch挑战传统
RT-Lynx：激活稀疏化让DiT GEMM加速1.55x

今日论文速览

1. LongCat-Video-Avatar 1.5：美团数字人开源对标HeyGen

LongCat-Video-Avatar 1.5 Technical Report | 美团 LongCat Team | arXiv:2605.26486

关键词：数字人·美团 LongCat·8 NFE 蒸馏·RLHF·开源对标闭源

前序问题：音频驱动视频生成虽然进展飞快，但要做到「商业级稳定性」仍然难——商用场景下需要的不仅是「唇形对得上」，还要全身时序稳定、长视频身份不漂、多人交互/物体交互不崩，并且部署侧推理 budget 严苛
本文贡献：美团 LongCat-Video-Avatar 1.5：以「系统工程 + 生产就绪」而非架构创新为优先项的开源数字人框架。把 audio encoder 升级到 Whisper Large 并精修训练 recipe，做到准确唇形同步 + 全身时序稳定 + 长视频严格身份一致；通过严格数据清洗 + RLHF 训练，泛化到动漫/动物等风格化域，并原生处理多人交互和物体处理这类真实复杂场景；为工业部署引入 advanced step distillation 把推理压到 8 NFE
实验效果：在 500+ 多样测例 benchmark 上的定量指标 + 严格人评显示 v1.5 在 human-likeness 和专家级质量评估上与 HeyGen / OmniHuman 1.5 / Kling Avatar 2.0 等闭源系统打平甚至超越；开源发布拉近了「学术原型」与「商业级部署」的差距
批判点评：美团摆明用「工程优先」的姿态——Whisper Large + 严苛数据 + RLHF + 8 NFE 蒸馏这套组合拳是教科书级的工业打法，公开报告稀缺。但「commercial-grade」更多靠数据规模和清洗，单一架构 trick 不构成壁垒；对标 HeyGen / OmniHuman 1.5 的具体维度需要更详细的 ablation 才能说服业界，且 8 NFE 与 Kling Avatar 2.0 之间的真实人评差距值得追踪

2. LongAV-Compass：首个分钟级音视频生成评测基准

LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV | 北京大学, Kling, 南大, 上交, 港科广州, 上海 AI Lab | arXiv:2605.26244

关键词：音视频生成·minute-scale·评测基准·T2AV/I2AV/V2AV·北大

前序问题：音视频联合生成正在从「短片段」走向「分钟级长内容」，但现有评测协议几乎都还停留在 5-10 秒文本条件生成；很少支持文本/图像/视频三种条件统一评测，更没说清楚长时间下身份一致性、叙事连贯、音画对齐到底怎么退化
本文贡献：LongAV-Compass：首个面向 minute-long 音视频生成的系统化评测基准。284 个精选测例覆盖 T2AV / I2AV / V2AV 三种输入，按应用场景和生成复杂度组织；统一评测框架结合 MLLM 辅助评估和 DINO-v2 / ArcFace / CLIP / ImageBind 等感知指标，覆盖 20+ 细粒度维度——段内质量、跨段一致性、全局叙事连贯、语义对齐、音画同步全都评
实验效果：在 11 个代表性模型上跑 + 人对齐验证，把当前系统在「保持连贯、保持语义对齐、保持时序一致」上的瓶颈量化呈现；为分钟级音视频生成提供了首个诊断式 testbed——音视频联合生成的「评测短板」正式被补上
批判点评：把音视频联合生成的评测从 5-10s 短片推到分钟级是必要补位——评测落后一直是这个赛道的隐形天花板。20+ 细粒度维度 + MLLM 辅助 + 4 大经典感知模型组合非常综合。但 MLLM 评测本身的偏置是隐忧，DINO-v2/ArcFace/CLIP/ImageBind 的权重融合策略需要更多 ablation；分钟级测例 284 个对开源社区评测可行但工业级评测仍偏小

3. MRT：20B多层透明图像生成超Qwen

MRT: Masked Region Transformer for Layered Image Generation and Editing at Scale | 微软亚研 MSRA | arXiv:2605.27235

关键词：多层图像生成·20B·masked region·8 步实时·MSRA

前序问题：层级图像生成与编辑是图像生成走向「可复用 / 可重编辑 / 可组合」的关键能力——类比自然语言里的「逐词编辑」——但在大规模上一直是 underexplored 的空白。多层透明生成 + 多任务统一框架既缺数据也缺方法
本文贡献：MRT：20B 参数 masked region diffusion 模型，专为多层透明图像生成与编辑打造，在 10M+ 多语言设计样本上训练，支持多 aspect ratio 与多语言 prompt。两项核心贡献：(i) 把 text-to-layers / image-to-layers / layers-to-layers 三任务统一到「共享 masked region diffusion」框架，靠 selective token masking 灵活切换层级生成与编辑；(ii) overflow-aware canvas layer 处理边界 inconsistency 并支持半透明背景合成，做出可编辑且延伸至画布外的完整图层。配套 diffusion 蒸馏实现 8 步实时多层生成
实验效果：在三项任务上全面超越此前 SOTA 包括商业系统；user-study 显著优于同期 Qwen-Image-Layered 的 image-to-layers 质量，且推理快 10-100×，activation GPU 显存降低 50-90%——为多层透明图像生成立下新基准
批判点评：把多层图像生成做到 20B + 三任务统一 + 8 步实时是非常工业化的工作量；超越 Qwen-Image-Layered 的人评结果是强信号。但 10M+ 设计样本的语义/版权分布未明，多语言/多 ratio 的真实可控性需要更细 ablation；overflow-aware canvas layer 在极端 aspect ratio 下的稳定性也需要追踪

4. CVQ：通道级VQ取代patch挑战传统

Channel-wise Vector Quantization | 上海创新研究院, 西湖大学, 浙大, 复旦 | arXiv:2605.26089

关键词：视觉 tokenization·channel-wise VQ·CAR·next-channel·DPG 86.7

前序问题：传统视觉自回归（VAR）和 VQ-based 文生图都把图像分成 patch、给每个 patch 分配一个离散 token——但这种 patch 视角本质是「把图像当空间网格」，不太符合人类绘画「先勾结构再补细节」的层次过程。codebook 利用率上不去、增大 codebook 后 collapse 也是顽疾
本文贡献：Channel-wise Vector Quantization (CVQ)：新视觉 tokenization 范式，离散化对象从 patch 换到 feature map 的每一个 channel——一张图被表示为「不同层级视觉细节的离散等级」而不是「空间 patch 网格」。基于 CVQ 提出 Channel-wise Autoregressive (CAR)：next-channel prediction 替代 next-patch prediction，先勾全局结构再渐进精修细粒度属性
实验效果：CVQ 在 16K+ codebook 规模下实现 100% codebook 利用率（无任何 trick），重建质量显著超过传统 VQ；CAR 在文生图上拿到 DPG 86.7 / GenEval 0.79——证明「按 channel 分层渲染」是 patch-based 视觉自回归的现实替代品
批判点评：把 tokenization 从空间 patch 切换到 channel 维度是真正的范式 rethink——「先结构后细节」也与人类作画过程契合。100% codebook 利用率是很硬的数字。但 channel 抽象层次的物理含义不够清晰（哪个 channel 对应「结构」哪个对应「细节」依赖训练涌现），跨分辨率/跨模态时的稳定性需要进一步验证；与 latest DiT 路线的端到端比较略浅

5. RT-Lynx：激活稀疏化让DiT GEMM加速1.55x

RT-Lynx: Putting the GEMM Sparsity In a Right Way for Diffusion Models | 国内系统研究团队 | arXiv:2605.26632

关键词：DiT 加速·激活稀疏化·N:M sparsity·CUDA kernel·1.55x

前序问题：DiT 推理太贵——量化和蒸馏已经被深挖，但能砍掉将近一半 FLOPs 的「半结构化稀疏（N:M sparsity）」一直 underexplored。原因是大家都在做 weight 稀疏化，但对 weight 做 50% 剪枝会拿掉关键模型容量，让生成质量崩坏
本文贡献：RT-Lynx：核心 insight 是「DiT 的激活本身天然稀疏，比 weight 更适合 N:M 半结构化稀疏化」。提出 paradigm shift——从 weight sparsification 转到 activation sparsification；配 error-compensation 缓解精度损失；并实现针对该场景高度优化的 CUDA kernel
实验效果：线性层平均 1.55× speedup，多个扩散模型上保留原生生成质量同时显著加速；为 DiT 部署提供「除量化和蒸馏外的第三条加速路线」
批判点评：把「稀疏化目标」从 weight 切到 activation 是非常对的洞察——activation 在 inference 时本来就动态出现 zero，强制 N:M 模式损失更小。1.55× 加速 + 不掉质量在 DiT 推理优化里属于实打实的硬增量。但 N:M 模式需要硬件配合（Ampere/Hopper 的 sparse tensor core），消费级 GPU 上的实际收益要打折；激活稀疏化对极长 token 序列（高分辨率视频）下的可扩展性需评测

6. ControlLight：Flow Matching做连续强度可控低光增强

ControlLight: Towards Controllable, Consistent, and Generalizable Low-Light Enhancement | 中科院深圳, StepFun | arXiv:2605.25569

关键词：低光增强·flow matching·连续可控·一致性·中科院深圳

前序问题：现有深度学习低光增强方法都在「有限数据集 + 单一增强目标」上训练——既泛化差又不可控。真实场景里同一张暗图，不同用户/不同场景需要不同的增强强度，但现有方法把它当作一个固定函数 fit
本文贡献：ControlLight：「可控 + 一致 + 可泛化」的低光增强框架。先建大规模真实退化图像数据集，对每张图给出「连续光照强度」标签作为监督；引入 misalignment-aware weighted flow matching loss，让模型在不同控制强度下输出仍然保持图像结构一致——用户可以连续滑动「增强强度」拿到不同结果而不撕裂
实验效果：在多个 benchmark 上超过现有低光增强 SOTA，同时具备「连续强度可控」+ 「真实场景泛化」能力，把低光增强从「一锤子函数」改造成「可调节工具」
批判点评：把 flow matching 用到低光增强 + 连续条件标签 + misalignment-aware loss 三件套是非常 clean 的设计——其中「misalignment-aware」直接 attack 不同强度下结构一致的根因。但「连续光照强度标签」如何从真实退化数据获取本身是个隐藏难题；与最近基于 diffusion 的图像 restoration 在极端低光场景的比较需要更全面

7. Native MM Roadmap：原生多模态架构路线图三分类

Toward Native Multimodal Modeling: A Roadmap | 华威大学, Monash, 港理工, 腾讯优图 | arXiv:2605.25343

关键词：原生多模态·NMM·路线图·three-class taxonomy·腾讯优图

前序问题：多模态建模正在从 modality-agnostic 推理走向 world modeling。早期 late-fusion（拼 encoder + frozen LLM + 输出头）已显疲态，最近转向 Native Multimodal Modeling (NMM)——把各模态从根上集成进同一个 transformer 拿到更强性能。但 NMM 的设计空间目前仍未系统化
本文贡献：为社区提供形式化的 NMM 路线图：(1) 形式化定义「架构原生性」，区分 mid-fusion / early-fusion 与非原生范式；(2) 从「输入-输出对偶」角度把现有 native 模型组织成三类——Multi-to-Text（跨模态理解，纯文本输出）/ Multi-to-Target（场景化生成，如图像/音频/视频生成）/ Multi-to-Multi（对称输入输出的统一建模）；(3) 全栈式工业视角剖析从架构协调、海量数据 curation、训练 recipe 到推理部署和评测的端到端 pipeline
实验效果：把当前散乱的「统一多模态架构」研究归结成一份可被工程师和研究员同时参考的路线图——理解和生成在「统一 transformer 范式」下无缝共存是 NMM 的目标终态。对走向 GPT-4o / Gemini 1.5 级原生多模态的开源工作给出系统化方法学
批判点评：「形式化 architectural nativity + 输入输出对偶三分类 + 全栈工业视角」三个层次组织得很清晰——是社区急需的概念清理。但综述类天然有「分类强、实证少」的局限，三类边界（特别是 Multi-to-Target 和 Multi-to-Multi）在最新模型上可能交叉；对未来 1-2 年具体技术抉择的指导力度需要在落地 case 中验证

趋势观察

工业级开源数字人 / 视觉基础模型加速对标闭源 — 美团 LongCat-Video-Avatar 1.5 用 Whisper Large + RLHF + 8 NFE 蒸馏的工业打法，在 500+ 测例上与 HeyGen / OmniHuman 1.5 / Kling Avatar 2.0 等闭源系统打平甚至超越——昨天百度 ERNIE-Image 是文生图，今天美团 LongCat-Avatar 是数字人——国内大厂正在多个垂类同时按下「开源对标闭源」按钮
音视频联合生成评测从「短片」推到「分钟级」 — LongAV-Compass 提供首个 minute-scale 音视频生成评测基准——284 个测例覆盖 T2AV / I2AV / V2AV、20+ 细粒度维度（段内质量 + 跨段一致 + 全局叙事 + 语义对齐 + 音画同步）。和最近 Baton / SpongeBob / StreamChar 等音视频联合生成模型一起，把「短片评测」时代正式翻篇
视觉生成 tokenization / 架构范式正在被 rethink — MRT 把「图像生成」从单层 RGB 推到「多层透明 + 三任务统一 + 8 步实时」；CVQ 把视觉 tokenization 从 patch-wise 切换到 channel-wise，重提「先结构后细节」的人类作画过程并拿到 100% codebook 利用率与 GenEval 0.79——patch + 单层这两个长期假设都在被挑战
DiT 推理加速的第三条路：从「weight 稀疏」转向「activation 稀疏」 — RT-Lynx 指出 DiT 激活本身就稀疏，对 N:M 半结构化稀疏化远比 weight 鲁棒，配合错误补偿和定制 CUDA kernel 拿到 1.55× 线性层加速且不掉质量——量化、蒸馏之外，「激活稀疏化」正式成为 DiT 部署的第三条加速路线
Native 多模态架构走向系统化，可控生成成为最后一公里 — Toward Native Multimodal Modeling 把原生多模态架构形式化为「Multi-to-Text / Multi-to-Target / Multi-to-Multi」三分类，给出从架构到训练到部署的全栈 roadmap；ControlLight 用 misalignment-aware flow matching 把低光增强做成「连续强度可控」工具——「统一架构 + 可控生成」正在收敛成下一代生成模型的双轨

人工智能炼丹君整理 | 2026-05-27