首页
常用链接
关于
Search
1
Pytorch DDP
2,419 阅读
2
Pytorch 常见问题
1,466 阅读
3
视频时序切分
1,254 阅读
4
2022年微信大数据比赛(多模态短视频分类)总结
969 阅读
5
中文场景下的CLIP图文预训练
959 阅读
分布式训练
AIGC
多模态理解
阅读
论文阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
默认分类
Search
标签搜索
论文速读
AIGC
人工智能
视频生成
DiT
ai
python
推理加速
扩散模型
对齐
图像生成
diffusion
Pandas
稀疏注意力
视频编辑
transformer
视觉传统方法
创意质量
git
shell
Jefxiong
累计撰写
64
篇文章
累计收到
8
条评论
首页
栏目
分布式训练
AIGC
多模态理解
阅读
论文阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
默认分类
页面
常用链接
关于
首页
/
AIGC
/
正文
AIGC
基于LLM做多模态生成系列文章-Make-A-Scene
人工智能炼丹师
2024-04-05
/
0 评论
/
327 阅读
/
正在检测是否收录...
04/05
基于LLM做多模态生成系列文章-Make-A-Scene
Make a Scene (Meta-2022)
:
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
Motivation
提升生成的可控性:Make-A-Scene同期工作主要以文生图为主,生成结果的可控性低。(ControlNet之前的工作)
人类感知优化:人类对于人脸/人体显著物体的畸形容忍程度较低,生成图片需要增强这些方面的能力
主要贡献
1. 可控生成:实现除文本控制外,增加图片分割图的可控生成,结构一致性 2. 压缩优化:优化图片tokenizer,增强对显著物体(人脸/人体等)的重建效果 3. 推理优化:提出针对自回归图片生成模型的CFG方案【可以舍弃CLIP rerank的环节】,极大提升FID和图文对齐
一些思考
分割图与类别相关,推理过程中有OOD的类别,有一定的限制性
提高对显著物体的重建效果,通过加入“感知Loss”实现,Face Embedding or Vgg Embedding进行约束
CFG对于提升图文一致性效果非常显著。
其中系数经验值取3-5
0
版权属于:
人工智能炼丹师 - AIGC论文速读
本文链接:
https://jefxiong.cn/index.php/archives/992.html
作品采用:
《
署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)
》许可协议授权
上一篇
下一篇
评论 (0)
画图模式
文本模式
细
中
粗
取消
发表评论
粤ICP备2021042327号
评论 (0)