ARC-AGI-3:新的交互式推理基准

张开发
2026/4/13 10:15:50 15 分钟阅读

分享文章

ARC-AGI-3:新的交互式推理基准
大多数人工智能基准测试都遵循相同的模式:给模型一个问题,得到一个答案,然后检查答案是否正确。多年来,这种方法一直行之有效。但随着前沿模型在几乎所有主要评估中得分都超过90%,一个熟悉的问题出现了:基准测试开始失去区分不同模型的能力。ARC-AGI-3采用了不同的方法。它并非呈现具有清晰输入输出对的静态谜题,而是将人工智能体置于没有指令、没有既定目标、也没有明确规则的交互式环境中。人工智能体必须通过反复尝试和观察来独立解决问题,就像一个人面对一个从未见过的游戏时一样。

更多文章