首页
AIGC
常用链接
关于
Search
1
Pytorch DDP
2,464 阅读
2
Pytorch 常见问题
1,494 阅读
3
视频时序切分
1,301 阅读
4
中文场景下的CLIP图文预训练
1,019 阅读
5
2022年微信大数据比赛(多模态短视频分类)总结
1,005 阅读
默认分类
AIGC
分布式训练
多模态理解
阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
AIGC Daily Papers
Search
标签搜索
AIGC
论文速读
人工智能
ai
视频生成
DiT
蒸馏
多模态
attention
对齐
diffusion
图像生成
python
扩散模型
图像编辑
llm
视频编辑
lora
Meta
transformer
Jefxiong
累计撰写
68
篇文章
累计收到
8
条评论
首页
栏目
默认分类
AIGC
分布式训练
多模态理解
阅读
算法基础
C++
Python
LeetCode
Shell
Pytorch
Segmentation
其他
广告
购房/投资
职场经验复盘
广告基础知识
推荐算法
创意优选
AIGC Daily Papers
页面
常用链接
关于
首页
/
AIGC
/
正文
AIGC
基于LLM做多模态生成系列文章-Make-A-Scene
人工智能炼丹君
2024-04-05
/
0 评论
/
355 阅读
/
正在检测是否收录...
04/05
基于LLM做多模态生成系列文章-Make-A-Scene
Make a Scene (Meta-2022)
:
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
Motivation
提升生成的可控性:Make-A-Scene同期工作主要以文生图为主,生成结果的可控性低。(ControlNet之前的工作)
人类感知优化:人类对于人脸/人体显著物体的畸形容忍程度较低,生成图片需要增强这些方面的能力
主要贡献
1. 可控生成:实现除文本控制外,增加图片分割图的可控生成,结构一致性 2. 压缩优化:优化图片tokenizer,增强对显著物体(人脸/人体等)的重建效果 3. 推理优化:提出针对自回归图片生成模型的CFG方案【可以舍弃CLIP rerank的环节】,极大提升FID和图文对齐
一些思考
分割图与类别相关,推理过程中有OOD的类别,有一定的限制性
提高对显著物体的重建效果,通过加入“感知Loss”实现,Face Embedding or Vgg Embedding进行约束
CFG对于提升图文一致性效果非常显著。
其中系数经验值取3-5
0
版权属于:
人工智能炼丹君
本文链接:
https://jefxiong.cn/index.php/archives/992.html
作品采用:
《
署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)
》许可协议授权
上一篇
下一篇
评论 (0)
画图模式
文本模式
细
中
粗
取消
发表评论
粤ICP备2021042327号
评论 (0)