新闻 发表于 2025-12-10 20:18

AI 数独能力测试

作者:微信文章
今天无聊,打开了久违的数独,想玩一把,玩着玩着,就想用数独来测试一下国内目前大火的几个AI,看下他们的能力怎么样。测试的数独原始盘如下。各位高手可以先玩一下。

接下来是测试过程,我的输入是一个图片加prompt, 所以所有的AI最先面临的挑战就是对图片的识别,测试下来准确的数据如下,好玩的是,不知道通义的背后的设计逻辑是怎么样的,中文说着说着就开始彪英文了,典型的人格分裂。通义deepSeekKimi豆包Geminichatgptgrok×xxxx√x从第一轮的测试结果来看,chatGPT 是最聪明的一个,从他的分析逻辑可以看出,对数独游戏,他的策略是一行一行的去进行识别,判断哪些地方是空格,哪些地方是数字,这样就不会陷入其他AI的误区中去。当然最先给出正确答案的,也是chatGPT,他聪明的用了一个脚本去计算结果,并很快的给出了答案,冠军就是ChatGPT. 从输出看思考了3m42s。

其他几个,反正都是弱智。比如grok, 我不知道他的逻辑是什么,居然跑到网络上去搜索去了?搞不懂....

花了很长一段时间,搜索出一大堆乱七八糟的内容,结果什么都没做出来。然后gemini. 我也不知道为什么,他也是说着说着,直接跑了,连历史记录数据都没有了.然后我又从新跑了一轮回答,这一次直接给出了正确答案,不知道怎么回事


最令我失望的是DeepSeek, 我满心欢喜的期待其前段时间发布的那个OCR识别能力,能在这个场景下完成的很好,但从识别能力来看,好像不太聪明的样子。


然后是豆包,豆包感觉就是一个莽子,识别能力不错,但数学逻辑推理能力堪忧,很快就输出了数据,但我觉得豆包没有学数独,完成的结果完全不满足数独的规则,结果也是错的。

然后是kimi, 思考了一会,和千问一样,放弃了,直接要我确认输入的数据是什么样的。

第二轮,我将正确的结果给到第一轮失败的几个AI,这次通义千问还是一如既往的优秀,说着说着就开始彪英语了。当然最终的结果是正确的。

而豆包,就是个倔强的牛,拉都拉不回来,依然错误。而最搞笑的是,他居然说“要不要我帮你整理一份数独每宫格的推理逻辑清单?” 此时此刻,我感觉智商受到了侮辱。

然后是grok, 我看到他的输出,我也是菊花一紧,感觉要出大事,我不知道Grok对我的输入做了什么操作,为什么别人能识别回车,他直接把回车符号给我删了。。。

最后最让我伤心的是deepseek,因为我平时用的最多的就是他,他最自豪的也是推理能力,但是吧,他居然做错了。 。

然后是kimi, 果不其然,也是错的。

最终结果通义deepSeekKimi豆包Geminichatgptgrok2轮正确两轮错误两轮错误两轮错误一轮错误,一轮正确一轮正确两轮错误整体来说Chat GPT的逻辑最优,Gemini 稳定性欠佳,国产豆包是个犟种,DeepSeek和kimi还是有待提升。grok感觉吹牛的水分比较大。
页: [1]
查看完整版本: AI 数独能力测试