时隔八年,在生成式人工智能问世之后,谷歌又搞了一次“AI棋王争霸赛”,OpenAI o4-mini、DeepSeek-R1、谷歌Gemini 2.5 Pro、Anthropic Claude Opus 4、xAI Grok 4、Kimi K2 Instruct等中美两国AI业界的顶流模型,将捉对厮杀。
据谷歌方面介绍,此次比赛旨在通过策略游戏中的正面交锋,评估并推动AI模型在复杂推理和决策能力上的进步,从而解决现有基准测试难以跟上模型发展速度的问题。同时他们此次赛事也是为了宣传自己的Kaggle Game Arena平台,而后者则是谷歌推出的一个全新的、公开的基准测试平台。
与目前常规的AI基准测试不同,Kaggle Game Arena的测试题目是“策略游戏”。谷歌之所以推出一个让AI玩游戏的平台,是因为当下传统的AI基准测试已经陷入瓶颈,难以反映旗舰模型的真实能力。简单来说,或为名、或为利的AI厂商,已经将各种AI基准测试给玩坏了,所以作为业界巨头,谷歌选择站出来正本清源。