基于LLM做多模态生成系列文章-Make-A-Scene

人工智能炼丹师
2024-04-05 / 0 评论 / 161 阅读 / 正在检测是否收录...

基于LLM做多模态生成系列文章-Make-A-Scene

Motivation

  1. 提升生成的可控性:Make-A-Scene同期工作主要以文生图为主,生成结果的可控性低。(ControlNet之前的工作)
  2. 人类感知优化:人类对于人脸/人体显著物体的畸形容忍程度较低,生成图片需要增强这些方面的能力

主要贡献

1. 可控生成:实现除文本控制外,增加图片分割图的可控生成,结构一致性 2. 压缩优化:优化图片tokenizer,增强对显著物体(人脸/人体等)的重建效果 3. 推理优化:提出针对自回归图片生成模型的CFG方案【可以舍弃CLIP rerank的环节】,极大提升FID和图文对齐

一些思考

  1. 分割图与类别相关,推理过程中有OOD的类别,有一定的限制性
  2. 提高对显著物体的重建效果,通过加入“感知Loss”实现,Face Embedding or Vgg Embedding进行约束
  3. CFG对于提升图文一致性效果非常显著。
    其中系数经验值取3-5
0

评论 (0)

取消
粤ICP备2021042327号