【多模态大模型——跨越感知与认知的鸿沟】第1章 认知断层:MLLM的本质挑战与范式转换

张开发
2026/4/9 2:06:14 15 分钟阅读

分享文章

【多模态大模型——跨越感知与认知的鸿沟】第1章 认知断层:MLLM的本质挑战与范式转换
目录1.1 从感知智能到认知智能的演进1.1.1 传统视觉模型的感知局限1.1.2 感知-认知断层的形成机制1.1.3 认知科学启发的架构范式1.2 Observe-Think-Verify闭环架构1.2.1 观察阶段(Observe):主动视觉注意1.2.2 思考阶段(Think):多步推理与知识整合1.2.3 验证阶段(Verify):自我修正与一致性检查1.1 从感知智能到认知智能的演进1.1.1 传统视觉模型的感知局限1.1.1.1 卷积网络的局部感受野约束卷积神经网络通过局部感受野和权重共享机制提取视觉特征,层叠的卷积操作逐步扩大感知范围。这种架构在捕捉局部纹理和边缘模式方面表现出高效性,然而固有的归纳偏置限制了模型对全局上下文关系的直接建模。深层网络中,感受野的扩张依赖于池化操作和堆叠的卷积层,导致细粒度空间信息的逐级流失。小尺寸目标或远距

更多文章