基于LLM做多模态生成系列文章-Parti和Dalle

人工智能炼丹师
2024-03-24 / 0 评论 / 177 阅读 / 正在检测是否收录...

基于LLM做多模态生成系列文章-Parti和Dalle

基于LLM的图片生成预期达成目标:复杂指令生成(多主体,属性绑定、空间位置关系等)、世界性知识

模型 模型结构图 图片离散化方式 自回归网络 参数量 生成图片大小
Dalle dalle d-VAE Decoder-only 12B 256x256
Parti parti vit-VQGAN Encoder-Decoder 350M、750M、3B、20B 1024 = 256 + 4倍SR

参考链接

-知乎 多模态预训练:DALL-E

0

评论 (0)

取消
粤ICP备2021042327号