首页
常用链接
关于
Search
1
Pytorch DDP
2,093 阅读
2
Pytorch 常见问题
1,211 阅读
3
视频时序切分
854 阅读
4
Semi-Supervised + Noisy Label
747 阅读
5
中文场景下的CLIP图文预训练
738 阅读
阅读
论文阅读
多模态理解
计算机视觉
Video Understanding
Segmentation
AIGC
机器学习
编程开发
C++
Python
LeetCode
Shell
Pytorch
模型加速
广告
广告基础知识
推荐算法
创意优选
购房/投资
职场经验复盘
默认分类
Search
标签搜索
python
Pandas
transformer
视觉传统方法
创意质量
git
shell
视频理解
Pytroch
nlp
DDP
图像自监督预训练
安装包
视频流行度
Jefxiong
累计撰写
50
篇文章
累计收到
7
条评论
首页
栏目
阅读
论文阅读
多模态理解
计算机视觉
Video Understanding
Segmentation
AIGC
机器学习
编程开发
C++
Python
LeetCode
Shell
Pytorch
模型加速
广告
广告基础知识
推荐算法
创意优选
购房/投资
职场经验复盘
默认分类
页面
常用链接
关于
首页
/
AIGC
/
正文
AIGC
基于LLM做多模态生成系列文章-Make-A-Scene
人工智能炼丹师
2024-04-05
/
0 评论
/
161 阅读
/
正在检测是否收录...
04/05
基于LLM做多模态生成系列文章-Make-A-Scene
Make a Scene (Meta-2022)
:
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
Motivation
提升生成的可控性:Make-A-Scene同期工作主要以文生图为主,生成结果的可控性低。(ControlNet之前的工作)
人类感知优化:人类对于人脸/人体显著物体的畸形容忍程度较低,生成图片需要增强这些方面的能力
主要贡献
1. 可控生成:实现除文本控制外,增加图片分割图的可控生成,结构一致性 2. 压缩优化:优化图片tokenizer,增强对显著物体(人脸/人体等)的重建效果 3. 推理优化:提出针对自回归图片生成模型的CFG方案【可以舍弃CLIP rerank的环节】,极大提升FID和图文对齐
一些思考
分割图与类别相关,推理过程中有OOD的类别,有一定的限制性
提高对显著物体的重建效果,通过加入“感知Loss”实现,Face Embedding or Vgg Embedding进行约束
CFG对于提升图文一致性效果非常显著。
其中系数经验值取3-5
0
版权属于:
人工智能炼丹师
本文链接:
https://jefxiong.cn/index.php/archives/992.html
作品采用:
《
署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)
》许可协议授权
上一篇
下一篇
评论 (0)
画图模式
文本模式
细
中
粗
取消
发表评论
粤ICP备2021042327号
评论 (0)