多模态与主流模型架构

张开发
2026/4/6 18:36:03 15 分钟阅读

分享文章

多模态与主流模型架构
1. 主流的开源大模型结构有哪些讲讲 Qwen2.5VL、Llama 等模型及其核心特征。它们如何进行微调和训练主流开源大模型结构目前主流的大模型主要基于Transformer 架构并衍生出三种主要路线仅解码器Decoder-only最主流的架构适用于绝大多数生成式任务。代表作Llama系列、Qwen非VL版本、GPT 系列。仅编码器Encoder-only擅长理解类任务如分类、序列标注。代表作BERT、RoBERTa。编码器-解码器Encoder-Decoder适用于序列到序列的任务如翻译、摘要。代表作T5、BART。模型核心特征Llama 系列核心特征以Decoder-only架构为基础通过在海量高质量数据上进行预训练强调训练效率和推理性能。其成功在于证明了在适当规模的数据和模型设计下开源模型可以达到闭源模型的性能。技术亮点采用RMSNorm进行层归一化取代 LayerNorm、SwiGLU激活函数取代 ReLU表达能力更强、旋转位置编码RoPERotary Position Embedding以及优化的多头注意力机制如 GQAGrouped Query Attention在 Llama 3 中引入来加速推理。Qwen2.5-VL核心特征这是一个多模态模型端到端理解图像 视频 文本非拼接式架构。它的核心在于将视觉信息高效地融入语言模型 。技术亮点视觉编码器采用架构与 SigLIP 类似但经过优化的ViT支持动态分辨率和视频帧率训练使其能处理任意长宽比图像、超过 1 小时的视频 。视觉-语言适配器通过一个简单的 MLP 层将 ViT 输出的视觉特征投影到语言模型Qwen2.5的嵌入空间。使用特殊的视觉位置编码Window-based 2D RoPE保留空间信息。多模态旋转位置编码mRoPE将原始 RoPE 扩展到多模态以处理图像的空间位置和视频的时间序列信息 。如何处理图像和视频图像、视频、文本统一 token 化图像切分为 视觉 token如 14×14 patch视频帧序列化处理。多模态原生预训练从 0 开始联合训练而非先训 LLM 再冻住接视觉模块。微调和训练方法主要分为预训练和对齐两个阶段其中微调是面试重点。预训练数据在海量无监督数据上进行目标是预测下一个词。技术需要大规模分布式训练框架如Megatron-LM、DeepSpeed使用混合精度训练FP16 / BF16、梯度累积等技术。微调与对齐指令微调SFTSupervised Fine-Tuning使用高质量的指令-响应对数据以监督学习的方式更新模型参数使其学会遵循指令。高效微调技术PEFT面试高频考点。旨在只更新少量参数大幅降低显存和计算成本。LoRA在模型原有权重矩阵旁添加低秩矩阵进行训练推理时将增量合并回原权重不增加额外延迟。实践如LLaMA-Factory工具常使用此方法 。Q-LoRA在 LoRA 基础上进一步量化基础模型如4-bit量化显著降低显存占用。人类反馈强化学习RLHF进一步使模型与人类偏好对齐。通常包含训练奖励模型和使用PPOProximal Policy Optimization等强化学习算法优化语言模型。2. 多模态大模型一般有哪几个组件什么作用目前主流的多模态大模型以视觉-语言为例通常遵循模块化范式主要由以下三个组件构成 视觉编码器作用将原始图像像素转换为紧凑的、富含语义的视觉特征向量。它相当于模型的“眼睛”负责“看懂”图像内容如物体、场景、颜色等。常见选择ViT、CLIP的视觉编码器也是ViT或ResNet、ConvNeXt等。模态连接器 / 投影器作用这是多模态融合的关键“桥梁”。由于视觉编码器输出的特征空间与大型语言模型的文本特征空间不一致连接器的任务就是将视觉特征“翻译”成大型语言模型能理解的、位于同一语义空间的向量即视觉Token。常见设计简单 MLP 层如Qwen-VL、Q-Former如BLIP-2、或交叉注意力层如Flamingo。大型语言模型作用作为整个系统的“大脑”接收由连接器转换后的视觉Token和用户输入的文本Token进行统一的推理和生成。它负责理解图文交互、执行指令并最终生成自然语言输出。常见选择Llama、Qwen等预训练好的仅解码器语言模型。输入层 图像 / 视频 → 视觉编码器 → 视觉特征文本 → Tokenizer → 文本 Token视觉编码器的典型实现ViT、CLIP ViT、Swin Transformer、ConvNeXt位置编码保留图像空间/视频时序信息如 2D RoPE、绝对位置编码、时间戳嵌入对齐层Alignment投影网络MLP / Q-Former / Perceiver作用将视觉特征映射到 LLM 的语义空间融合层LLM 底座Decoder-only Transformer统一处理文本 token 视觉 token自回归生成回答3. 视觉跟文本之间的对齐任务是怎么做的视觉与文本的对齐旨在让模型理解“这幅图”和“这句话”在语义上是匹配的。核心方法是构建一个跨模态的共享语义空间。主要做法 对比学习对齐如 CLIP我只看得懂这个核心思想拉近匹配的图文对正样本在向量空间中的距离推远不匹配的图文对负样本的距离。具体操作对训练批次中的N个图文对模型分别编码得到N个图像向量和N个文本向量形成一个N x N的相似度矩阵。对角线元素是正样本对其余是负样本对。模型通过对比损失函数如 InfoNCE学习最大化对角线的相似度同时最小化其他位置的相似度 。细粒度对齐如用于 Text-VQA 的 TWA 方法核心思想不仅要对齐整体的图文还要对齐图像中的区域如检测框和文本中的词或短语。具体操作引入注意力机制或图神经网络让模型学习“哪个词对应图中的哪个物体”。例如对于 OCR 场景将识别出的文本 Token 与图像中的对应位置进行关联以纠正 OCR 识别错误 。生成式对齐如图像 / 文本重建核心思想要求模型基于一种模态生成另一种模态。如果能正确生成则证明其实现了对齐。具体操作掩码建模掩码掉图像的一部分区域或文本的一部分 Token让模型根据可见部分进行重建 。图像描述 / 文本到图像生成训练模型根据图像生成准确的描述或根据文本描述生成相符的图像。阶段一特征对齐Feature Alignment目标让视觉特征和文本特征在同一空间可比方法对比学习Contrastive Learning代表CLIP 预训练图像-文本对拉近负样本推开阶段二语义对齐Semantic Alignment目标LLM 能理解视觉内容并生成描述方法Prefix / Projection视觉特征作为软提示Soft Prompt前缀输入 LLMCross-Attention视觉特征作为 Key / Value文本 Query 去 attend如 FlamingoQ-FormerBLIP-2轻量查询 Transformer提取与文本最相关的视觉特征阶段三指令对齐Instruction Alignment数据(图像, 指令, 回答)三元组训练SFT让模型遵循多模态指令优化冻结视觉编码器训练投影层 LLM4. CLIP 框架描述。CLIP 的文本编码器和图像编码器都是什么它们分别如何提取特征CLIP 框架描述 CLIPContrastive Language-Image Pre-training是 OpenAI 提出的一个里程碑式的多模态预训练框架。其核心是一个双塔结构由独立的图像编码器和文本编码器组成。它通过对比学习在包含 4 亿个图文对的大规模数据集上进行预训练目标是让模型学习到图像和文本之间细粒度的对应关系。编码器结构与特征提取方式图像编码器结构可以是传统的CNN如ResNet或基于 Transformer 的ViTVision Transformer。特征提取输入将图像预处理为统一尺寸如 224x224。ViT 处理流程将图像分割成固定大小的Patches如 16x16每个 Patch 线性投影为一个向量。添加一个特殊的[CLS]Token 和位置编码后输入一系列 Transformer 块。最终取[CLS]Token 的输出作为整张图像的全局特征向量。ResNet 处理流程通过卷积层堆叠提取特征图最后通过全局平均池化得到最终的图像特征向量。文本编码器结构通常是一个Transformer模型如 GPT 系列但通常是仅编码器或解码器的变体。特征提取输入将文本进行Tokenize分词并在开头和结尾添加特殊的[SOS]开始和[EOS]结束Token。处理流程Token 序列经过嵌入层转换为向量并加上位置编码然后输入 Transformer 块。最终通常取序列最后一个 Token或[EOS]Token的输出经过线性投影后作为文本的全局特征向量。关键细节大规模数据4 亿互联网图文对WebImageTextzero-shot 能力通过自然语言描述迁移到下游任务局限性细粒度理解弱OCR 能力差需要后续微调5. ViT 的结构是什么ViTVision Transformer的核心思想是将标准的 Transformer 架构直接应用于图像处理将图像视为序列直接应用 Transformer打破 CNN 的局限性局部性、平移等变性。其结构主要包含以下模块图像分块与嵌入 Patch Embedding将输入图像H x W x C分割成N个固定大小的非重叠 Patch如16x16。将每个 Patch 展平并通过一个可训练的线性投影层映射到D维空间得到一系列 Patch Embeddings。添加特殊 Token 和位置编码[CLS]Token在序列开头添加一个可学习的嵌入向量[CLS]其最终输出作为整个图像的全局表示用于分类任务。位置编码由于 Transformer 本身不具备空间顺序信息需要向每个 Patch Embedding 中加入位置编码可学习的或固定的以保留图像的空间位置信息。Transformer 编码器将加入了[CLS]Token 和位置编码的整个序列长度为N1输入到堆叠的 Transformer 编码器层中。每一层包含层归一化 LayerNorm多头自注意力 Multi-Head Self-Attention让每个Patch与其他所有Patch进行信息交互从而捕获全局依赖关系。层归一化 LayerNormMLP由两个全连接层和 GELU 激活函数组成增加模型的非线性表达能力。每个子层后都使用残差连接。输出层用于分类取最后一层 Transformer 编码器输出的[CLS]Token 的向量。将其输入一个分类头一个简单的 MLP得到最终的类别预测。6. SAM 有哪几个组件用的什么指标评价模型性能横向相比大概什么水平这是我第一次听说 SAM不懂这个SAMSegment Anything Model组件 SAM 是一个用于图像分割的提示基础模型其设计目标是实现“可提示的分割”。它包含三个核心组件图像编码器 Image Encoder一个基于ViT的模型MAE 预训练MAE 是什么对输入图像进行处理提取高分辨率的图像特征。这部分计算量大但只需对每张图像运行一次。提示编码器 Prompt Encoder负责将用户的交互提示转换为特征向量。提示可以是稀疏的点、框、文本或稠密的粗略的掩码 mask。点/框通过位置编码表示。文本通过 CLIP 等模型的文本编码器编码。掩码通过卷积降采样后与图像特征结合。**轻量级掩码解码器 **Mask Decoder****一个高效的双层 Transformer 解码器。它将 image encoder 和 prompt encoder 的特征 以及一个可学习的输出 Token 映射到最终的 mask。这个 decoder 经过设计可以在极短时间内约 50ms根据任意提示生成多个有效的分割掩码。核心设计模糊感知Ambiguity-aware一个提示可能对应多个有效 mask如点击杯沿可能指杯子或杯盖解决方案同时输出3 个 mask分别对应整体、部分、子部分训练时根据 GT 与预测 mask 的 IoU 选择最佳匹配计算损失评价指标 图像分割领域常用的指标主要有这些我也不懂IoU预测分割区域与真实分割区域之间的重叠率。mIoU在所有类别上计算 IoU 的平均值是语义分割最核心的指标。FPS每秒处理的图像帧数用于衡量模型的计算效率和推理速度。Accuracy像素级别的分类准确率。Boundary F-score边界质量评估。模型性能水平横向比较

更多文章