CogVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS
- 被多个文生图模型广泛使用,包括SD3、可图用作Caption模型
- 图像 & 文本分别建模的思想在SD3中的MMDIT中也被应用到
1. Motivation
- 浅层对齐的缺陷:例如BLIP2的QFormer或者LLAVA的MLP,作者认为是导致幻觉的一个重要原因
- 浅层对齐 + 图文联合训练(LLM+Vision+adapter)会损害NLP的能力: Qwen-VL 等模型,会导致文本理解能力的灾难性遗忘【只要训练数据配比得当,就能避免这个问题?】
2. 主要贡献
模型结构:
- 引入视觉专家(QKV matrix+ FFN):
- 冻结LLM,100%保留文本对话能力
- 视觉位置编码:图像特征共享一个位置编码,对于高分辨率理解有帮助。
3. 一些细节
3.1 消融实验(caption 任务 + VQA任务)
- 模型结构 & 微调的部分:【视觉专家 + MLP adapater】比其他更好,(为什么没有微调视觉+LLM+adapter全量实验,在下游任务上全量FT应该可以更好),该部分影响最大
- 采用LLM的权重来初始化Visual Expert能够提升性能(应该能加速训练,和LLM expert融合会更容易)
- 视觉部分,单向注意 or 双向注意的影响,使用单向注意反而更好
- 视觉部分的自回归监督,没有提升
- EMA可以多数任务上均能带来提升
3.3 训练数据细节
3.3.1 预训练数据
- LAION-2B + COYO-700M-> 1.5B
- Visual grouding: 40M(GLIP v2预测的bounding box作为GT),从LAION-115M中过滤出来的40M(75%的图片包含至少两个目标框)
3.3.2 SFT数据(50w)
- LLaVA-Instruct (corrected)
- LRV-Instruction
- LLaVAR
- in-house data
3.4 训练细节
- 在SFT阶段,对LLM进行训练,学习率为base其他参数的10%,VIT始终保持固定
评论 (0)