2025_NIPS_MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation

张开发
2026/4/10 3:13:09 15 分钟阅读

分享文章

2025_NIPS_MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation
MLLM-For3D 文章总结与翻译一、主要内容总结1. 研究背景与问题3D推理分割需基于人类意图和空间推理分割复杂场景中的目标物体,在具身智能、自动驾驶等领域至关重要,但现有方法依赖大量人工标注的⟨3D, 文本⟩配对数据,成本高昂。现有2D多模态大语言模型(MLLMs)在2D推理分割中表现出色,但直接迁移至3D场景时面临两大核心问题:一是单视图易出现不存在物体的“幻觉标注”,二是多视图预测缺乏空间一致性,导致3D模型性能下降。2. 核心框架:MLLM-For3D提出一种无标签框架,将2D MLLMs的推理能力迁移至3D场景理解,无需人工3D标注。核心流程:多视图伪标签生成:利用冻结的2D MLLM(如LISA)和SAM模型,从3D场景的多视角RGB图像中生成伪分割掩码和[SEG]令牌嵌入;视图过滤:通过令牌注意力机制筛选可靠视图,抑制遮挡或语义不一致的噪声视图;3D模型训练:结合多模态语义对齐和空间一致性约束,训练3D分割网络(以MinkowskiNet14为骨干),实现跨视图目标的一致识别。3. 实验结果在Instruct3D、Intent3D、VG-w/o-ON三大基准测试中表现优异,无3D标注时仍

更多文章