多模态预训练模型之CogVLM

人工智能炼丹师
2024-08-04 / 0 评论 / 123 阅读 / 正在检测是否收录...

CogVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS

  • 被多个文生图模型广泛使用,包括SD3、可图用作Caption模型
  • 图像 & 文本分别建模的思想在SD3中的MMDIT中也被应用到

1. Motivation

  • 浅层对齐的缺陷:例如BLIP2的QFormer或者LLAVA的MLP,作者认为是导致幻觉的一个重要原因
  • 浅层对齐 + 图文联合训练(LLM+Vision+adapter)会损害NLP的能力: Qwen-VL 等模型,会导致文本理解能力的灾难性遗忘【只要训练数据配比得当,就能避免这个问题?】

2. 主要贡献

模型结构:

  • 引入视觉专家(QKV matrix+ FFN):
  • 冻结LLM,100%保留文本对话能力
  • 视觉位置编码:图像特征共享一个位置编码,对于高分辨率理解有帮助。

3. 一些细节

3.1 消融实验(caption 任务 + VQA任务)

  1. 模型结构 & 微调的部分:【视觉专家 + MLP adapater】比其他更好,(为什么没有微调视觉+LLM+adapter全量实验,在下游任务上全量FT应该可以更好),该部分影响最大
  2. 采用LLM的权重来初始化Visual Expert能够提升性能(应该能加速训练,和LLM expert融合会更容易)
  3. 视觉部分,单向注意 or 双向注意的影响,使用单向注意反而更好
  4. 视觉部分的自回归监督,没有提升
  5. EMA可以多数任务上均能带来提升

3.3 训练数据细节

3.3.1 预训练数据

  • LAION-2B + COYO-700M-> 1.5B
  • Visual grouding: 40M(GLIP v2预测的bounding box作为GT),从LAION-115M中过滤出来的40M(75%的图片包含至少两个目标框)

3.3.2 SFT数据(50w)

  • LLaVA-Instruct (corrected)
  • LRV-Instruction
  • LLaVAR
  • in-house data

3.4 训练细节

  • 在SFT阶段,对LLM进行训练,学习率为base其他参数的10%,VIT始终保持固定
0

评论 (0)

取消
粤ICP备2021042327号