标签搜索

Jefxiong

累计撰写 51 篇文章
累计收到 7 条评论

首页
/
论文阅读
/
正文

论文阅读 AIGC 阅读

多模态预训练模型之CogVLM

人工智能炼丹师

2024-08-04 / 0 评论 / 198 阅读 / 正在检测是否收录...

08/04

CogVLM：VISUAL EXPERT FOR LARGE LANGUAGE MODELS

被多个文生图模型广泛使用，包括SD3、可图用作Caption模型
图像 & 文本分别建模的思想在SD3中的MMDIT中也被应用到

1. Motivation

浅层对齐的缺陷：例如BLIP2的QFormer或者LLAVA的MLP，作者认为是导致幻觉的一个重要原因
浅层对齐 + 图文联合训练（LLM+Vision+adapter）会损害NLP的能力： Qwen-VL 等模型，会导致文本理解能力的灾难性遗忘【只要训练数据配比得当，就能避免这个问题？】

2. 主要贡献

模型结构：

引入视觉专家(QKV matrix+ FFN):
冻结LLM，100%保留文本对话能力
视觉位置编码：图像特征共享一个位置编码，对于高分辨率理解有帮助。

3. 一些细节

3.1 消融实验(caption 任务 + VQA任务)

模型结构 & 微调的部分：【视觉专家 + MLP adapater】比其他更好，（为什么没有微调视觉+LLM+adapter全量实验，在下游任务上全量FT应该可以更好），该部分影响最大
采用LLM的权重来初始化Visual Expert能够提升性能（应该能加速训练，和LLM expert融合会更容易）
视觉部分，单向注意 or 双向注意的影响，使用单向注意反而更好
视觉部分的自回归监督，没有提升
EMA可以多数任务上均能带来提升

3.3 训练数据细节

3.3.1 预训练数据

LAION-2B + COYO-700M-> 1.5B
Visual grouding: 40M(GLIP v2预测的bounding box作为GT)，从LAION-115M中过滤出来的40M（75%的图片包含至少两个目标框）

3.3.2 SFT数据(50w)

LLaVA-Instruct (corrected)
LRV-Instruction
LLaVAR
in-house data

3.4 训练细节

在SFT阶段，对LLM进行训练，学习率为base其他参数的10%，VIT始终保持固定

0

版权属于：人工智能炼丹师

本文链接： https://jefxiong.cn/index.php/archives/1013.html

作品采用：《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 》许可协议授权

下一篇

评论 (0)

取消

Jefxiong

51 文章数

7 评论量

人生倒计时

标签云

粤ICP备2021042327号