标签搜索

Jefxiong

累计撰写 68 篇文章
累计收到 8 条评论

首页
/
AIGC
/
正文

AIGC

基于LLM做多模态生成系列文章-Parti和Dalle

人工智能炼丹君

2024-03-24 / 0 评论 / 386 阅读 / 正在检测是否收录...

03/24

基于LLM做多模态生成系列文章-Parti和Dalle

Parti: Scaling Autoregressive Models for Content-Rich Text-to-Image Generation
Dalle: Zero-Shot Text-to-Image Generation

基于LLM的图片生成预期达成目标：复杂指令生成(多主体，属性绑定、空间位置关系等)、世界性知识

模型	模型结构图	图片离散化方式	自回归网络	参数量	生成图片大小
Dalle		d-VAE	Decoder-only	12B	256x256
Parti		vit-VQGAN	Encoder-Decoder	350M、750M、3B、20B	1024 = 256 + 4倍SR

参考链接

-知乎多模态预训练：DALL-E

0

版权属于：人工智能炼丹君

本文链接： https://jefxiong.cn/index.php/archives/974.html

作品采用：《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 》许可协议授权

评论 (0)

取消

粤ICP备2021042327号