大家读完觉得有帮助记得关注和点赞摘要全球图像地理定位旨在预测地球上任何位置拍摄的图像的精确GPS坐标由于巨大的视觉和地理多样性这项任务极具挑战性。近期方法主要遵循两种范式基于检索的方法将查询与参考数据库匹配以及基于生成的方法利用大型视觉语言模型直接预测坐标。然而我们观察到它们之间存在不同的误差特征检索擅长细粒度实例匹配而生成提供鲁棒的语义推理。这种互补异质性表明没有单一范式普遍优越。为了利用这一潜力我们提出了GeoRouter一个动态路由框架自适应地将每个查询分配给最优范式。GeoRouter利用LVLM骨干网络分析视觉内容并提供路由决策。为了优化GeoRouter我们引入了一个距离感知偏好目标将范式之间的距离差距转化为连续的监督信号明确反映相对性能差异。此外我们构建了GeoRouting这是第一个专为训练具有独立范式预测的路由策略而设计的大规模数据集。在IM2GPS3k和YFCC4k上的大量实验表明GeoRouter显著优于最先进的基线方法。1 引言全球图像地理定位旨在确定地球上任何位置拍摄的图像的精确地理坐标。与将空间限制在特定城市或已知地标的受限定位任务相比这种全球尺度方法支持更广泛的开放世界应用包括犯罪追踪、环境监测和自主导航。然而由于巨大的环境多样性实现高全球精度仍然具有挑战性。模型必须跨不同气候、植被和文化区分视觉上相似但地理上遥远的场景。近期最先进的方法通常遵循两种范式(1)基于检索的方法通过将查询图像与参考数据库匹配来预测坐标。(2)基于生成的方法利用大型视觉语言模型直接预测位置调用外部工具或应用语义推理进行空间推断。为了系统比较这些范式的能力我们对MP16数据集进行了实证研究分别部署了GeoRanker和Gemini-2.5-pro作为检索和生成的代表模型。如图1(a)所示我们的分析揭示了显著的空间性能异质性最优方法在不同地理区域明显不同而非单一模型在全球占主导地位。此外图1(b)中的定量细分揭示了两个关键模式。首先基于检索的方法在细粒度和粗粒度阈值上实现了更高的成功率而基于生成的方法在中间级别表现更好。其次在任何给定阈值下两种范式各自在相当一部分查询上获胜证实了没有一种方法始终占主导地位。这些观察结果表明两种范式表现出互补的误差特征而不仅仅是能力重叠。尽管如此现有研究主要侧重于单个范式的独立优化忽视了整体集成的潜力。图1全球图像地理定位中的范式互补性。为了应对这一挑战我们引入了GeoRouter一个旨在解决新颖的地理定位路由任务的统一框架。具体来说GeoRouter利用LVLM作为其骨干网络以利用先进的视觉理解和空间推理能力。通过分析给定上下文信息的语义内容模型预测一个标量路由分数自适应地将查询分配给基于检索或基于生成的范式。为了稳健地优化这个决策机制我们提出了距离感知偏好优化。与将路由视为离散选择的标准二元分类不同DisPO将范式预测之间的测地线距离差异转化为连续的监督信号。这使得模型不仅能够辨别哪个范式提供了更准确的预测还能感知性能提升的幅度确保精确和校准的路由决策。为了促进GeoRouter的训练我们构建了GeoRouting这是第一个专为地理定位路由任务设计的大规模数据集。与仅提供真实坐标的标准地理定位数据集不同GeoRouting包含范式之间的性能比较。这种丰富的监督使模型能够学习每种范式在不同查询中的比较优势而不是专注于直接的坐标预测。因此GeoRouting可以作为一个基础基准以标准化和推进全球图像地理定位中动态模型选择的研究。我们在两个成熟的基准IM2GPS3k和YFCC4k上进行了大量实验以验证我们方法的有效性。结果表明GeoRouter实现了高路由精度并显著提高了整体地理定位性能。此外我们进行了全面的消融研究和超参数分析以验证每个组件的必要性并评估不同配置对最终结果的影响。我们的贡献可以总结如下我们系统地揭示了检索和生成范式之间的性能互补性并提出了新颖的路由任务以打破单模型性能天花板。我们提出了GeoRouter一个基于VLM的框架利用DisPO实现连续的置信度建模以实现稳健和精确的动态路由。我们发布了GeoRouting第一个用于全球图像地理定位的大规模路由数据集为这一新兴研究方向建立了标准。在IM2GPS3k和YFCC4k上的大量实验证明GeoRouter相对于基线实现了全面的改进证明了动态路由范式的有效性。2 相关工作2.1 图像地理定位图像地理定位旨在预测地球上任何位置拍摄的图像的精确地理坐标是计算机视觉和地理人工智能交叉领域的一项重要跨学科任务。早期方法通过将地球划分为离散的地理网格来将这个问题表述为分类任务。这些模型被训练来预测包含查询图像的特定网格单元输出其中心坐标作为最终预测。然而这种策略存在固有误差因为即使分类正确实际位置也可能远离网格中心。近期方法通常分为两种主要范式基于检索的方法和基于生成的方法。(1)基于检索的方法将地理定位视为相似性搜索问题。它们维护一个带有地理标签的图像的参考数据库并为给定的查询图像识别最相似的候选项。这些方法通常对先前见过的地标实现高精度但可能在未见视图或视觉相似但地理上遥远的区域中遇到困难。(2)基于生成的方法依赖LVLM直接推断地理位置。这种范式最近已演变为智能体框架其中模型利用内部语义推理或调用外部搜索工具从视觉线索中推断坐标。然而这些模型可能遭受空间幻觉难以实现细粒度的空间精度。GeoRouter与这些现有类别不同它提出了一个新框架动态地将每个查询路由到最合适的范式从而打破单模型系统的性能天花板。2.2 路由与动态模型选择动态模型选择的概念基于算法选择问题即认为没有单一算法对所有问题实例都是普遍最优的。相反不同的算法表现出性能互补性它们的相对有效性根据输入的具体特征而变化。最近这种方法在大语言模型领域获得了显著的发展势头。被称为LLM路由其目标是动态地将用户查询导向最合适的组件——通常在能力丰富的专有模型和成本效益高的开源对应模型之间选择——以在不影响响应质量的情况下优化资源消耗。现有文献主要将这些方法分为四类(1)基于相似性的路由方法通过聚类向量嵌入来路由查询以识别语义相似的历史交互。(2)有监督路由方法在查询-性能配置文件上训练独立的分类器以明确预测特定领域的最优模型。(3)基于强化学习的路由方法将路由形式化为序贯决策过程通过试错反馈学习最优策略。(4)生成式路由方法利用LLM推理能力通过指令微调或少样本学习直接生成路由决策。GeoRouter是第一个动态地在检索和生成范式之间路由的框架协同它们的互补优势以实现卓越的定位精度。3 方法在本节中我们将详细介绍GeoRouter我们用于全球图像地理定位的动态路由框架。图2提供了该框架的概述包括两个阶段训练和推理。训练阶段从第3.1节的数据集构建开始我们构建GeoRouting数据集以支持路由监督。然后进入第3.2节的模型架构和第3.3节的优化。在推理阶段GeoRouter分析输入图像并预测路由分数以为每个查询选择最合适的范式图2动态路由框架GeoRouter的概述。3.1 数据集构建训练GeoRouter需要反映两种范式在每个查询上相对性能的监督。我们基于现有的带有地理标签的图像数据库构建这种监督从中采样一组查询图像。每个采样的查询由一张图像 I_i 及其真实地理坐标 g_i 组成。对于每个查询 I_i我们使用两种不同的范式生成空间预测基于检索的方法 ℛ 和基于生成的方法 。检索方法提取一组相似候选项 _i {c_i¹, …, c_i^K} ℛ(I_i)其中每个候选项 c_i^k 表示一个数据库条目关联图像 I_{c_i^k} 及其地理坐标 gps_{c_i^k}。排名最高的候选项 c_i¹ 的位置被作为检索预测g_i^ret gps_{c_i¹}。同时生成方法使用LVLM直接推断坐标预测g_i^gen (I_i)。我们计算两种方法相对于真实坐标的地理定位误差d_i^ret (g_i^ret, g_i) 和 d_i^gen (g_i^gen, g_i)其中 (·,·) 表示地理距离函数。二元路由标签定义为 y_i [d_i^gen d_i^ret]其中 y_i 1 表示生成方法更优y_i 0 表示检索方法更优。因此我们将GeoRouting数据集中的每个训练实例格式化为元组 (I_i, g_i^ret, g_i^gen, d_i^ret, d_i^gen, _i, y_i)以为路由模型提供全面的监督。3.2 GeoRouter图2(b)展示了GeoRouter的整体架构。现有方法通常遵循单一范式要么完全依赖基于检索的匹配要么完全依赖基于生成的推理这忽视了它们的互补优势限制了整体性能。为了解决这一局限性GeoRouter引入了一种动态路由机制将范式选择形式化为一个可学习的决策问题。GeoRouter不直接预测地理坐标而是评估查询图像并估计哪种范式对给定输入更可靠。提示模板。为了使LVLM能够执行范式选择查询图像和辅助上下文信息被组装成一个统一的提示模板。该提示明确地将路由框定为决策任务并呈现来自两种范式的预测和候选信息作为参考输入。提示模板如下所示任务决定对该图像的地理定位使用生成方法还是检索方法。 查询{查询图像 I_i} 基于生成的预测{生成的GPS坐标 g_i^gen} 基于检索的预测{检索到的排名第一的GPS坐标 g_i^ret}{检索到的排名第一的图像 I_{c_i¹}} 其他检索到的候选坐标{前K个检索到的GPS列表 (不包括排名第一) {gps_{c_i^k}}_{k2}^K}形式上组装好的提示记为 _i (I_i, g_i^gen, g_i^ret, _i)其中 (·) 代表提示构建函数。这种结构化设计允许模型在估计两种范式的相对可靠性时联合考虑视觉内容、预测坐标和检索上下文。值得注意的是不同输入设置下的提示模板变体也被评估详细分析见第4.3节。架构。构建的提示输入 _i 被馈送到预训练的LVLM骨干网络中以联合编码视觉和文本信息。为了以参数高效的方式使模型适应路由任务在训练期间将低秩适配模块注入到选定的Transformer层中而大部分骨干网络参数保持冻结。我们使用最后一层最后一个令牌的隐藏状态作为输入的联合表示设 _i LVLM(_i)[-1] ∈ ℝ^m其中 m 是隐藏维度。然后一个线性路由头通过 r_i ^⊤ _i 将 _i 投影到一个标量值其中 ∈ ℝ^m 是路由头的可训练参数。得到的标量 r_i ∈ ℝ 表示模型对基于检索和基于生成范式的偏好。3.3 优化为了有效训练GeoRouter依赖带有硬标签的标准二元分类忽略了地理误差的连续性质。因此我们引入了一种距离感知优化方法将两种范式之间的地理距离差异转换为连续的软标签。这种策略使模型不仅能学习哪种范式表现更好还能学习性能差距的幅度从而导致更校准和稳健的路由决策。距离感知偏好优化。给定一个训练实例 _i令 d_i^ret 和 d_i^gen 分别表示检索和生成范式的地理预测误差。我们不是使用离散的二元标签而是计算一个连续的偏好分数。首先我们计算两个误差之间的对数差以捕捉它们的相对尺度其中 ϵ 是一个小常数用于确保数值稳定性。接下来我们应用 sigmoid 函数将这个无界差转换为一个软概率标签 p_i ∈ (0,1)其中 α 是一个控制软标签分配陡峭度的缩放超参数。在这种公式下当生成方法比检索方法精确得多时Δ_i 成为一个大的正值将 p_i 推向 1。相反当检索方法更优时Δ_i 变为负值p_i 接近 0。根据第3.2节r_i 表示GeoRouter的路由头为第 i 个查询预测的标量 logit。我们使用在软标签上计算的加权二元交叉熵损失函数来优化模型其中 N 是批量大小σ(r_i) 表示选择基于生成范式的预测概率。通过直接最小化这个距离感知目标框架明确地将模型的连续置信度与两种范式之间的实际地理性能差距对齐。3.4 推理在推理阶段主要目标是动态地将每个查询分配给最合适的范式以最大化准确性。给定一个新的查询图像 I_i框架首先收集其相关的上下文信息包括基于检索的预测 g_i^ret、基于生成的预测 g_i^gen 和检索到的候选集 _i以构建输入提示 _i。然后GeoRouter处理此提示以计算连续路由分数 r_i GeoRouter(_i)并在 r_i 0 时将最终预测分配为 ĝ_i g_i^gen否则为 ĝ_i g_i^ret。一组查询的最终地理预测是这些单独路由坐标的聚合确保系统利用两种范式的互补优势。4 实验4.1 实验设置数据集和评估指标。为了构建用于训练的GeoRouting数据集我们采用MP16-Pro数据库作为参考图像和地理坐标的来源。对于测试我们与标准地理定位文献对齐并在两个广泛使用的基准上评估GeoRouterIM2GPS3k和YFCC4k。为了量化预测精度我们计算预测位置与真实坐标之间的测地线距离。整体性能报告为在五个预定义距离阈值内成功定位的查询百分比1公里、25公里、200公里、750公里和2500公里。路由精度也在第4.5节中进行了分析。GeoRouting数据集。为了支持全球图像地理定位中路由模型的训练和评估我们构建了GeoRouting数据集。具体来说我们从MP16-Pro数据库中采样了10万个实例作为查询。对于每个查询我们使用基于检索和基于生成的范式生成预测。然后我们计算每个预测与真实坐标之间的距离以确定指示更合适范式的二元路由标签。因此每个完整的数据样本包含查询图像数据、真实GPS、检索到的候选上下文、两种范式的预测、它们各自的距离误差以及二元路由标签。通过公开发布该数据集我们旨在提供一个标准基准以推进地理定位路由和多模态决策任务的研究。数据条目的详细示例见附录A。实现细节。为了代表基于生成的范式我们选择了Gemini-2.5-Flash因为它在现有图像地理定位基准上表现出色。对于基于检索的范式我们采用了当前最先进的基于检索的方法GeoRanker使用其默认配置不生成候选。我们使用Qwen2-VL-7B-Instruct实现GeoRouter的LVLM骨干网络。在训练期间我们应用LoRA高效微调骨干网络特别针对q_proj、k_proj和v_proj模块。我们配置LoRA的秩为16缩放因子为32丢弃率为0.05。GeoRouter使用AdamW优化器进行优化学习率为1e-4批量大小为24训练3个周期。对于距离感知偏好优化我们将数值稳定性常数 ϵ 设为1e-6缩放超参数 α 设为1.6。更多细节见附录B。基线。为了评估我们方法的有效性我们与14个基线方法进行了对比实验[L]kNN, sigma4, PlaNet, CPlaNet, ISNs, Translocator, GeoDecoder, GeoCLIP, Img2Loc, PIGEON, G3, GeoToken, GeoRanker, GeoBayes, 和 Geo-R。基线的详细描述见附录C。4.2 主要结果表1在IM2GPS3k和YFCC4k基准上的主要结果。值越高表示性能越好。最佳和次佳结果分别以粗体和下划线突出显示。Δ 表示GeoRouter相对于最佳基线的相对改进。方法IM2GPS3kYFCC4k街道1km城市25km地区200km国家750km大陆2500km街道1km城市25km地区200km国家750km大陆2500km[L]kNN, sigma47.219.426.938.955.92.35.711.023.542.0PlaNet8.524.834.348.464.65.614.322.236.455.8CPlaNet10.226.534.648.664.67.914.821.936.455.5ISNs10.528.036.649.766.06.516.223.837.455.0Translocator11.831.146.758.980.18.418.627.041.160.4GeoDecoder12.833.545.961.076.110.324.433.950.068.7GeoCLIP14.1134.4750.6569.6783.829.5919.3132.6355.0074.69Img2Loc15.3439.8353.5969.7082.7819.7830.7141.4058.1174.07PIGEON11.3036.7053.8072.4085.3010.423.7040.6062.2077.70G316.6540.9455.5671.2484.6823.9935.8946.9864.2678.15GeoToken16.8039.6053.8070.8085.0024.3035.3046.6064.2078.60GeoRanker18.7945.0561.4976.3189.2932.9443.5454.3269.7982.45GeoBayes6.3034.7053.6073.7085.904.9016.1030.9055.8075.40Geo-R18.1041.5358.3175.3386.4210.4722.6740.0460.8375.84GeoRouter20.8250.4865.7380.3590.6632.9846.0157.5272.0283.02相对改进 Δ ↑10.80%12.05%6.90%5.29%1.53%0.12%5.67%5.89%3.20%0.69%为了验证所提出的路由框架的有效性我们在IM2GPS3k和YFCC4k基准上将GeoRouter与最先进的地理定位方法进行了比较。如表1所示实验结果揭示了以下主要观察结果。GeoRouter在两个数据集的所有距离阈值上始终实现了最高的准确率。具体来说GeoRouter在城市级空间尺度上表现出最显著的优势在IM2GPS3k和YFCC4k数据集上在25公里阈值处分别以12.05%和5.67%的相对幅度优于最佳基线。结果证实了静态模型的局限性。完全依赖检索匹配或语义生成限制了整体空间精度。通过明确评估置信度差距并将查询分配给最优范式GeoRouter有效地克服了这一性能天花板。总之GeoRouter通过结合检索和生成范式的互补优势提高了全球图像地理定位的准确性。此外附录D提供了按距离阈值分类的定性示例以说明不同地理定位精度水平下查询的分布。4.3 消融研究为了系统评估GeoRouter中每个组件的贡献我们在两个数据集上进行了消融研究。我们定义了我们方法的以下变体(1)w/o DisPO使用标准二元交叉熵损失和离散硬标签优化的我们的方法。(2)w/o 从输入提示中移除辅助检索到的候选信息。(3)w/o g^ret同时移除候选集和基于检索的预测。(4)w/o g^gen从提示中排除基于生成的预测。(5)w/o Context移除所有范式预测和候选信息路由决策仅基于查询图像。表2在IM2GPS3k上的消融研究。方法街道1km城市25km地区200km国家750km大陆2500km平均w/o DisPO20.8549.3864.2679.0589.7660.66w/o 20.6949.1864.6079.7590.0960.86w/o g^ret19.2246.1161.7677.1189.2958.69w/o g^gen20.2248.3164.0678.7589.9260.25w/o Context19.2945.8561.4677.4189.1658.63Ours20.8250.4865.7380.3590.6661.60IM2GPS3k上的定量结果如表2所示YFCC4k的结果见附录E。从结果中我们可以得出几个关键观察结果。(1) 完整的GeoRouter框架实现了最高的平均准确率证实了每个提议的组件都对最终性能有积极贡献。(2) 用标准BCE损失替换DisPO导致性能下降特别是在中级和粗级空间级别。这表明离散的二元标签无法捕捉预测误差的地理幅度。通过利用距离感知优化模型学习了更校准的置信度分数这对于准确的范式选择至关重要。(3) 从提示中移除上下文信息会持续降低性能。移除候选集会略微降低准确率这表明检索到的候选者为模型学习路由提供了有用的上下文。移除检索上下文或生成预测导致更大的准确性下降。最后仅依赖查询图像的变体产生了最低的整体性能。这些结果表明提供预测坐标允许模型直接比较范式而不是在没有参考的情况下做出路由决策。4.4 缩放超参数 α 的影响图3超参数 α 对地理定位准确率的影响。子图显示了在IM2GPS3k数据集上评估的、距离阈值从1公里到2500公里的结果。为了理解距离感知目标中缩放超参数 α 的影响我们通过将其值从0.1系统地变化到3.0来进行实验。超参数 α 控制由检索和生成范式之间的地理距离差距生成的软概率标签的陡峭度。我们在图3中展示了在IM2GPS3k数据集上所有五个距离阈值的地理定位准确率。两个数据集的完整评估结果见附录F。从图3的趋势中我们得出关于模型行为的几个关键见解。首先将 α 设置为非常低的值在所有空间阈值上始终产生最低的准确率。小的 α 产生过于平坦的概率分布阻止模型有效捕捉两种范式之间性能差距的幅度。其次随着 α 的增加地理定位性能通常得到改善在 α 1.6 左右达到最佳峰值。最后当 α 设置得太高时准确率开始逐渐下降。过大的 α 导致 sigmoid 变换近似为阶跃函数这实际上将连续的软标签退化为离散的硬二元标签。这种退化凸显了连续距离建模的必要性并验证了DisPO的核心设计。4.5 动态路由的有效性表3不同距离阈值下地理定位和路由精度的比较。真实方法中最佳性能以粗体突出显示而理论上限结果以斜体呈现。数据集方法地理定位准确率 (%)平均路由准确率 (%)平均1km25km200km750km2500km1km25km200km750km2500kmIM2GPS3k纯检索18.4243.1459.2975.3188.3656.9057.2848.4448.4847.5748.3750.03纯生成17.5547.9163.3078.8588.5959.2442.7251.5651.5252.4351.6349.97GeoRouter20.8250.4865.7380.3590.6661.6165.5263.3662.0961.6161.3062.78Oracle*24.29**54.55**71.37**85.09**93.89**65.84**100.00**100.00**100.00**100.00**100.00**100.00*YFCC4k纯检索32.4742.7053.1369.9582.6756.1885.2373.3467.5165.4764.4471.20纯生成10.4326.8541.9359.3073.2842.3614.7726.6632.4934.5335.5628.80GeoRouter32.8946.0157.5272.0283.0258.2986.9080.9677.4472.8370.9277.81Oracle*35.67**49.78**62.43**77.89**89.09**62.97**100.00**100.00**100.00**100.00**100.00**100.00*为了评估所提出的路由框架的有效性我们分析了路由精度以及由此产生的地理定位性能与静态单范式策略和理论上限进行了比较。如表3所示我们可以得出三个主要观察结果。首先GeoRouter在所有指标上始终优于两种纯基线证明了其在识别每个查询的最优范式方面的有效性。其次比较两个数据集突显了GeoRouter在不同误差分布下的鲁棒性。在IM2GPS3k数据集上纯检索和纯生成方法的性能相对平衡。相比之下在YFCC4k数据集上纯检索方法相对于生成方法显示出优势。即使在这种不平衡的场景下GeoRouter也成功地适应了底层数据分布并保持了其性能优势显示出强大的鲁棒性。第三虽然GeoRouter成功超越了单模型的性能限制但与Oracle上限相比仍存在明显差距。这证实了路由任务的潜力并强调了策略优化作为一个有价值的未来方向。我们还研究了GeoRouter的可迁移性见附录G。4.6 骨干网络模型规模的影响图4骨干网络模型规模对地理定位性能的影响。评估比较了Qwen2-VL和Qwen3-VL系列在不同参数大小下的平均准确率。为了研究LVLM骨干网络的参数规模如何影响性能我们使用不同大小的Qwen2-VL和Qwen3-VL模型系列评估GeoRouter。图4展示了在不同模型规模下IM2GPS3k和YFCC4k数据集上的平均准确率。从这些结果中我们得出两个主要结论。首先增加模型参数数量持续提高了路由性能。对于Qwen2-VL和Qwen3-VL系列随着参数规模从20亿扩展到70或80亿平均准确率呈现出明显的上升趋势。其次基础模型架构的进步提供了即时的性能提升。在相同或相似的参数规模下较新的Qwen3-VL模型在两个数据集上都持续优于较旧的Qwen2-VL模型。这证实了GeoRouter框架可以轻松扩展并从最先进的LVLM架构的持续改进中受益。每个级别的详细结果见附录H。4.7 数据效率分析图5数据效率分析。图表展示了在使用不同比例可用数据集训练GeoRouter时实现的平均准确率。为了研究训练数据量对学习到的路由策略的影响我们使用不同比例的可用的数据集评估GeoRouter。如图5所示我们从结果中得出两个主要结论。首先随着数据比例从0.1增加到1.0平均地理定位准确率总体呈上升趋势。这表明接触更多的训练样本能稳步改善路由决策。其次该框架表现出高数据效率。即使限制在仅10%的训练数据上GeoRouter在IM2GPS3k和YFCC4k数据集上都持续超越了最先进的基线GeoRanker。这证实了该模型从极小部分数据中就能有效学习比较路由机制同时继续受益于完整数据集提供的更广泛的地理多样性。关于每个距离级别的详细实验结果和推理开销分析请参阅附录I和附录J。4.8 案例研究图6说明GeoRouter在两种范式之间路由决策的案例研究。为了定性地说明GeoRouter的路由行为我们分析了图6中显示的两个代表性示例。案例1展示了一个包含通用视觉元素的海滨餐饮场景。检索方法匹配了来自远处位置的视觉相似候选项因为此类场景缺乏足够的判别特征来进行精确的实例匹配。相比之下基于生成的方法从语义线索中正确推断出地理上下文并产生了精确的预测。GeoRouter分配了正的路由分数并正确选择了生成范式。案例2展示了一张干旱跑道的旧照片有限的图像质量和缺乏显著的语义线索使得直接坐标生成不可靠。然而背景中独特的山体轮廓提供了一个强大的视觉指纹使检索方法能够识别地理上准确的候选项。GeoRouter分配了负的路由分数并正确选择了检索范式。5 结论在本文中我们提出了GeoRouter一个动态路由框架自适应地将每个查询分配给最适合的范式进行全球图像地理定位。为了支持这个框架我们引入了距离感知偏好优化并构建了GeoRouting第一个专为地理定位路由设计的大规模数据集。在IM2GPS3k和YFCC4k上的大量实验表明GeoRouter始终优于最先进的基线。技术附录附录 A GeoRouting 数据条目图7GeoRouting数据集条目的代表性示例每行显示一个查询图像及其真实GPS坐标来自基于检索和基于生成范式的预测及其各自的距离误差检索到的候选图像及其GPS坐标以及二元路由标签。GeoRouting数据集中的每个条目包含一个查询图像、其真实GPS坐标、检索到的候选图像及其坐标、来自检索和生成范式的预测、每个预测的距离误差以及一个二元路由标签。该标签指示哪个范式产生更准确的预测标签1表示基于生成的范式更合适而标签0表示基于检索的范式更合适。为显示目的图7仅显示了每个条目十个候选中的三个。附录 B 更多实验设置细节表4详细的实验配置。参数值每设备批量大小3批量大小24数据集大小100KDeepSpeed 阶段2GPUNVIDIA H800 × 8训练时间50 分钟 / 周期总参数8,298,264,064可训练参数6,884,864 (0.08%)训练 GPU 内存总计 485 GiB平均 60.5 GiB / 设备LVLM 骨干网络Qwen2-VL-7B-Instruct表4提供了我们实验中使用的硬件和训练配置的全面总结。所有实验均在配备8个NVIDIA H800 GPU的节点上进行。每个训练周期大约需要50分钟完整的3周期训练运行在3小时内完成展示了我们方法的计算效率。附录 C 基线详细介绍在本节中我们提供实验中比较的所有基线方法的介绍。[L]kNN, σ4kNN从参考数据库中检索前 k 个最相似的图像并聚合它们的GPS坐标以产生最终预测。参数 σ 控制聚合核的空间带宽随着 k 减小预测变得更加集中在 k1 时方法简化为最近邻检索。PlaNetPlaNet是第一个将全球图像地理定位视为分类问题的方法。它将地球表面划分为地理单元格并训练卷积神经网络将每个查询图像分配到其对应的单元格。预测单元格的中心坐标用作最终位置估计。CPlaNetCPlaNet通过引入组合划分策略扩展了PlaNet该策略通过多个较粗地理分区的交集推导出细粒度的输出类别。这种层次分解使得模型能够比使用单一平面划分方案产生更精确的位置预测。ISNsISNs用辅助场景特征增强标准图像输入这些特征捕捉高层环境上下文例如场景是室内、自然还是城市。将这些额外信号与原始图像内容结合使模型能够学习更丰富的表示从而在不同环境中提高地理定位准确性。TranslocatorTranslocator采用双分支Transformer架构并行处理原始查询图像及其对应的语义分割图。通过联合利用外观和结构信息模型学习更具判别性的位置感知特征并实现了更强的性能。GeoDecoderGeoDecoder指出先前的基于分类的方法没有充分利用地理信息的层次性质。它通过引入一个跨注意力机制来解决这一限制该机制对不同空间粒度的特征之间的关系进行建模提高了模型从复杂场景内容中推理位置的能力。GeoCLIPGeoCLIP通过引入一个专用的GPS编码器将地理定位的CLIP对比学习框架进行了调整该编码器将地理坐标与图像特征一起投影到共享嵌入空间。这种对齐允许模型直接将视觉内容与地理位置关联从而实现有效的全球地理定位而无需依赖固定的分类网格。Img2LocImg2Loc将检索增强生成流程集成到地理定位中。给定一个查询图像系统首先检索一组视觉上相似的参考图像并收集它们的GPS坐标。然后这些坐标被整合到一个大型视觉语言模型的提示中该模型通过对视觉内容和检索到的地理上下文进行推理来生成最终的位置预测。PIGEONPIGEON引入了一个结合了语义引导的地理单元格划分、多任务对比预训练和专门损失函数的框架。通过根据语义相似性对候选位置进行分组随后应用目标检索来细化预测PIGEON相比先前的分类和检索方法显著提高了地理定位准确性。G3G3是一个三阶段基于RAG的框架由地理对齐、地理多样化和地理验证组成。地理对齐阶段联合训练图像、GPS和文本编码器以学习用于检索的位置感知多模态表示。后续阶段利用LVLM生成和验证一组多样化的候选GPS坐标通过使用学习到的表示将候选相似性与查询进行比较来选择最终预测。GeoTokenGeoToken将地理定位重新表述为一个从粗到细的自回归令牌预测任务其灵感来自人类逐步将位置从广阔区域缩小到具体地址的方式。该模型使用Google S2单元格作为层次空间网格并在视觉输入和先前预测的令牌条件下以增加的地理分辨率自回归地预测位置令牌。GeoRankerGeoRanker解决了现有两阶段检索流程的一个关键局限性即候选选择依赖于无法捕捉候选之间空间关系的简单点态相似性启发式。GeoRanker采用LVLM联合编码查询-候选对并预测地理邻近性。引入多阶距离损失来监督绝对和相对距离排名使模型能够推理候选的结构化空间排列并选择最准确的地理预测。GeoBayesGeoBayes是一个无训练框架将地理定位表述为最大后验概率估计问题。一个状态记忆机制在地理层次结构的各个层级间传播假设、证据和推理上下文从而实现从粗到细的地理定位。Geo-RGeo-R是一个无检索框架引入了区域链范式将地理定位分解为一个层次推理过程。该模型进一步通过强化学习进行优化使用结合了基于半正矢公式的空间准确性和输出格式一致性的复合奖励从而实现坐标预测的空间接地细化。附录 D 跨距离阈值的定性示例图8显示了按五个距离阈值的地理定位误差分组的代表性查询图像。在1公里内定位的图像通常包含强烈且明确的视觉标识符例如著名的建筑结构或标志性地标。这些场景对两种范式都有利对于这些经常被拍照的位置检索方法可以轻松地在数据库中找到视觉上相似的条目而生成方法可以利用LVLM中嵌入的世界知识直接推理它们。随着误差阈值增加到25公里和200公里查询图像倾向于呈现更通用的场景这些场景提供较弱的判别线索。在这些中级水平上准确的地理定位更依赖于微妙的上下文信号如建筑风格、植被类型或地形特征这使得GeoRouter的范式选择特别有价值。在最粗的阈值下查询图像经常描绘几乎没有位置特定信息的场景。在这些情况下检索和生成范式都无法可靠地推断真实位置大的误差反映了这种视觉信息不足的输入固有的基本模糊性。图8跨不同地理定位精度水平的GeoRouter预测的定性示例。附录 E 消融研究的完整实验结果表5在IM2GPS3k和YFCC4k上的消融研究。方法IM2GPS3k平均YFCC4k平均1km25km200km750km2500km1km25km200km750km2500kmw/o DisPO20.8549.3864.2679.0589.7660.6633.0545.7557.0871.6582.8058.06w/o 20.6949.1864.6079.7590.0960.8633.5845.5556.4271.9483.5358.20w/o g^ret19.2246.1161.7677.1189.2958.6929.8341.3452.0568.6781.5054.67w/o g^gen20.2248.3164.0678.7589.9260.2533.2045.0855.6271.2582.9457.61w/o Context19.2945.8561.4677.4189.1658.6330.1441.6052.9869.9182.3455.39Ours20.8250.4865.7380.3590.6661.6032.9846.0157.5272.0283.0258.31表5展示了在IM2GPS3k和YFCC4k数据集上的完整消融结果。在YFCC4k上观察到的趋势与主论文中在IM2GPS3k上报告的一致证实了每个提议的组件无论数据集如何都做出了积极贡献。关于输入提示的组成结果突显了上下文组件之间的清晰层次结构。两个范式预测 g^gen 和 g^ret 是最关键的输入。这表明明确提供两种范式的预测坐标能够进行直接比较并且是准确路由决策的基础。相比之下仅移除检索到的候选集导致相对较小的性能下降这表明虽然候选上下文提供了帮助模型评估检索可靠性的补充空间线索但范式预测本身仍然是路由的主要基础。附录 F 超参数分析的完整实验结果图9超参数 α 对IM2GPS3k和YFCC4k上所有五个距离阈值地理定位准确率的影响。每列对应从街道级别到大陆级别的距离阈值。图9展示了在IM2GPS3k和YFCC4k上 α 的完整超参数敏感性结果。在两个数据集上将 α 设置得过大都会导致在大多数距离阈值上准确率持续下降。这种行为在城市和地区级别尤其明显在这些级别上校准的软标签对于区分两种范式最为关键。如主文所述过大的 α 会将连续的软标签压缩为近乎二元的监督破坏了DisPO旨在提供的距离感知建模。附录 G 可迁移性分析表6GeoRouter在IM2GPS3k数据集上跨不同生成式LVLM的可迁移性。所有指标均以地理定位准确率百分比报告。Δ 平均列表示通过集成我们的路由机制实现的性能增益。基础生成模型方法距离阈值平均Δ 平均1km25km200km750km2500kmGemini 2.5 Flash基础模型17.5547.9163.3078.8588.5959.244.00% GeoRouter20.8250.4865.7380.3590.6661.61Gemini 2.5 Flash (Thinking)基础模型18.5948.8862.9678.6188.9959.613.37% GeoRouter21.1550.9864.8380.3590.7961.62Gemini 2.0 Flash基础模型15.4245.3861.2378.1487.9257.624.84% GeoRouter19.4548.4563.7379.8890.5660.41GPT-5 Mini基础模型17.9544.8458.6674.2186.4956.434.64% GeoRouter20.9547.7861.5376.5888.3959.05为了评估学习到的路由策略是否泛化到不同的生成模型我们进行了可迁移性分析。具体来说我们使用Gemini 2.5 Flash生成的预测来训练GeoRouter。在推理期间我们直接应用这个冻结的路由模型来评估来自各种未见过的LVLM的预测无需任何额外的微调。在IM2GPS3k数据集上的结果如表6所示得出了几个关键结论。首先GeoRouter在所有距离阈值上持续提高了每个评估的LVLM的地理定位准确率。这表明即使在推理期间替换了基于生成的方法路由机制也能稳定地增强整体系统性能。其次跨不同模型家族和参数规模的成功迁移表明GeoRouter学习了泛化的路由能力而不是过拟合到训练LVLM的特定误差分布。附录 H 骨干网络模型规模的完整实验结果表7路由骨干网络模型规模对性能的影响。评估使用Qwen2-VL和Qwen3-VL系列在IM2GPS3k和YFCC4k数据集上进行。所有结果均以地理定位准确率百分比表示。骨干模型IM2GPS3k平均YFCC4k平均1km25km200km750km2500km1km25km200km750km2500kmQwen2-VL-2B20.3549.0264.3679.3590.0660.6333.4945.5056.9771.3883.0058.07Qwen2-VL-7B20.8250.4865.7380.3590.6661.6132.9846.0157.5272.0283.0258.31Qwen3-VL-2B20.9549.6864.8079.9190.7261.2133.5545.9057.3071.8983.4058.41Qwen3-VL-4B21.0249.9865.3779.9890.7261.4133.8246.4557.7672.5383.4458.80Qwen3-VL-8B20.9950.1865.3380.2890.6661.4933.7146.4557.8073.0684.3759.08表7详细报告了在IM2GPS3k和YFCC4k上每个骨干模型配置的地理定位准确率补充了主文中呈现的平均准确率摘要。结果与主文描述的趋势一致。在Qwen2-VL系列中从2B扩展到7B参数在两个数据集的所有距离阈值上都带来了改进。在Qwen3-VL系列中从2B扩展到8B产生了稳定的改进并且与Qwen2-VL系列相比收益在不同阈值上分布更均匀这表明Qwen3-VL的架构改进导致了跨不同空间粒度的更平衡的路由能力。值得注意的是即使是最小的配置Qwen2-VL-2B也持续优于最强的单范式基线GeoRanker这进一步证实了无论骨干网络容量如何路由框架都是有效的。附录 I 所有地理级别的数据效率分析图10在IM2GPS3k和YFCC4k数据集上跨五个地理级别的详细数据效率分析。蓝色实线表示在不同比例数据集上训练的GeoRouter的准确率而黄色虚线表示最先进的基线GeoRanker的性能。在主文中我们展示了GeoRouter在不同训练数据量下的平均地理定位准确率。图10提供了在IM2GPS3k和YFCC4k数据集上所有五个地理级别的这些数据效率结果的详细分解。详细的评估得出了与聚合结果一致的两个观察结果。首先GeoRouter相对于最先进的基线GeoRanker的优势在所有空间尺度上都是稳健的。即使在仅使用10%可用数据集训练时GeoRouter在两个数据集的每个单独距离阈值上都优于GeoRanker。其次随着训练数据比例的增加地理定位准确率在不同空间级别上通常得到改善。虽然在特定粒度上出现微小波动但总体积极趋势证实了动态路由机制稳定地从训练数据中增加的地理多样性中受益。附录 J 推理开销分析表8GeoRouter在IM2GPS3k和YFCC4k数据集上的推理开销。GPU批量大小IM2GPS3kYFCC4kGPU 内存消耗推理速度GPU 内存消耗推理速度NVIDIA H800 × 116平均 65 GiB0.1054秒/图平均 65 GiB0.0551秒/图在本节中我们评估推理阶段路由组件引入的计算开销。表8详细说明了GeoRouter的GPU内存消耗和推理速度。评估在单个NVIDIA H800 GPU上使用批量大小16进行。