【AI 数独能力测试】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-12-10 20:18

AI 数独能力测试

作者：微信文章
今天无聊，打开了久违的数独，想玩一把，玩着玩着，就想用数独来测试一下国内目前大火的几个AI，看下他们的能力怎么样。测试的数独原始盘如下。各位高手可以先玩一下。

接下来是测试过程，我的输入是一个图片加prompt，所以所有的AI最先面临的挑战就是对图片的识别，测试下来准确的数据如下，好玩的是，不知道通义的背后的设计逻辑是怎么样的，中文说着说着就开始彪英文了，典型的人格分裂。通义deepSeekKimi豆包Geminichatgptgrok×xxxx√x从第一轮的测试结果来看，chatGPT 是最聪明的一个，从他的分析逻辑可以看出，对数独游戏，他的策略是一行一行的去进行识别，判断哪些地方是空格，哪些地方是数字，这样就不会陷入其他AI的误区中去。当然最先给出正确答案的，也是chatGPT,他聪明的用了一个脚本去计算结果，并很快的给出了答案，冠军就是ChatGPT. 从输出看思考了3m42s。

其他几个，反正都是弱智。比如grok，我不知道他的逻辑是什么，居然跑到网络上去搜索去了？搞不懂....

花了很长一段时间，搜索出一大堆乱七八糟的内容，结果什么都没做出来。然后gemini. 我也不知道为什么，他也是说着说着，直接跑了，连历史记录数据都没有了.然后我又从新跑了一轮回答，这一次直接给出了正确答案，不知道怎么回事

最令我失望的是DeepSeek, 我满心欢喜的期待其前段时间发布的那个OCR识别能力，能在这个场景下完成的很好，但从识别能力来看，好像不太聪明的样子。

然后是豆包，豆包感觉就是一个莽子，识别能力不错，但数学逻辑推理能力堪忧，很快就输出了数据，但我觉得豆包没有学数独，完成的结果完全不满足数独的规则，结果也是错的。

然后是kimi, 思考了一会，和千问一样，放弃了，直接要我确认输入的数据是什么样的。

第二轮，我将正确的结果给到第一轮失败的几个AI，这次通义千问还是一如既往的优秀，说着说着就开始彪英语了。当然最终的结果是正确的。

而豆包，就是个倔强的牛，拉都拉不回来，依然错误。而最搞笑的是，他居然说“要不要我帮你整理一份数独每宫格的推理逻辑清单？” 此时此刻，我感觉智商受到了侮辱。

然后是grok, 我看到他的输出，我也是菊花一紧，感觉要出大事，我不知道Grok对我的输入做了什么操作，为什么别人能识别回车，他直接把回车符号给我删了。。。

最后最让我伤心的是deepseek,因为我平时用的最多的就是他，他最自豪的也是推理能力，但是吧,他居然做错了。。

然后是kimi, 果不其然，也是错的。

最终结果通义deepSeekKimi豆包Geminichatgptgrok2轮正确两轮错误两轮错误两轮错误一轮错误，一轮正确一轮正确两轮错误整体来说Chat GPT的逻辑最优，Gemini 稳定性欠佳，国产豆包是个犟种，DeepSeek和kimi还是有待提升。grok感觉吹牛的水分比较大。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI 数独能力测试