2025_NIPS_G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning

张开发
2026/5/5 5:00:15 15 分钟阅读
2025_NIPS_G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning
文章核心总结与创新点核心内容本文针对大型语言模型(LLMs)在图推理任务中表现有限的问题,提出了一种基于强化学习(RL)的方法G1。通过在大规模合成图论任务数据集Erdős上训练,G1显著提升了LLMs的图推理能力,且在未见过的任务、领域和图编码方案中表现出强泛化性,同时不损害通用推理能力。实验证明,3B参数的G1模型性能可超越72B参数的Qwen2.5-72B-Instruct,7B参数的G1模型能与OpenAI o3-mini等先进推理模型比肩。核心创新点首次将强化学习框架应用于提升LLMs的图推理能力,通过规则化奖励信号实现高效训练。构建了目前最大规模、最全面的图论数据集Erdős,包含50种不同难度的任务、10万条训练数据和5千条测试数据,均源自真实世界图结构。验证了RL训练的泛化价值:模型在 unseen 图任务、真实世界节点分类/链路预测任务中表现优异,且通用推理能力(数学、多领域理解)未受损害。提出了“预训练LLMs已蕴含潜在图理解能力,RL可有效激发”的核心观点,为通用图推理模型提供了数据高效、可扩展的训练路径。翻译部分(Markdown格式)Abstract尽管大型语言模型(LLMs)已取得显著进展,但它们在图相关任务中的表现仍存在明显局限,这阻碍了真正通用人工智能模型的发展。以往的尝试(包括预训练图基础模型或采用有监督

更多文章