标签搜索

Jefxiong

累计撰写 68 篇文章
累计收到 8 条评论

首页
/
AIGC
/
正文

AIGC

基于LLM做多模态生成系列文章-Make-A-Scene

人工智能炼丹君

2024-04-05 / 0 评论 / 355 阅读 / 正在检测是否收录...

04/05

基于LLM做多模态生成系列文章-Make-A-Scene

Make a Scene (Meta-2022): Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

Motivation

提升生成的可控性：Make-A-Scene同期工作主要以文生图为主，生成结果的可控性低。（ControlNet之前的工作）
人类感知优化：人类对于人脸/人体显著物体的畸形容忍程度较低，生成图片需要增强这些方面的能力

主要贡献

1. 可控生成：实现除文本控制外，增加图片分割图的可控生成，结构一致性 2. 压缩优化：优化图片tokenizer，增强对显著物体(人脸/人体等)的重建效果 3. 推理优化：提出针对自回归图片生成模型的CFG方案【可以舍弃CLIP rerank的环节】,极大提升FID和图文对齐

一些思考

分割图与类别相关，推理过程中有OOD的类别，有一定的限制性
提高对显著物体的重建效果，通过加入“感知Loss”实现，Face Embedding or Vgg Embedding进行约束
CFG对于提升图文一致性效果非常显著。其中系数经验值取3-5

0

版权属于：人工智能炼丹君

本文链接： https://jefxiong.cn/index.php/archives/992.html

作品采用：《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 》许可协议授权

评论 (0)

取消

粤ICP备2021042327号