版权属于:
人工智能炼丹师
作品采用:
《
署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)
》许可协议授权
基于LLM的图片生成预期达成目标:复杂指令生成(多主体,属性绑定、空间位置关系等)、世界性知识
模型 | 模型结构图 | 图片离散化方式 | 自回归网络 | 参数量 | 生成图片大小 |
---|---|---|---|---|---|
Dalle | ![]() |
d-VAE | Decoder-only | 12B | 256x256 |
Parti | ![]() |
vit-VQGAN | Encoder-Decoder | 350M、750M、3B、20B | 1024 = 256 + 4倍SR |
评论 (0)