找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 118|回复: 0

AI 数独能力测试

[复制链接]
发表于 2025-12-10 20:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
今天无聊,打开了久违的数独,想玩一把,玩着玩着,就想用数独来测试一下国内目前大火的几个AI,看下他们的能力怎么样。测试的数独原始盘如下。各位高手可以先玩一下。
w1.jpg
接下来是测试过程,我的输入是一个图片加prompt, 所以所有的AI最先面临的挑战就是对图片的识别,测试下来准确的数据如下,好玩的是,不知道通义的背后的设计逻辑是怎么样的,中文说着说着就开始彪英文了,典型的人格分裂。
通义deepSeekKimi豆包Geminichatgptgrok
×xxxxx
从第一轮的测试结果来看,chatGPT 是最聪明的一个,从他的分析逻辑可以看出,对数独游戏,他的策略是一行一行的去进行识别,判断哪些地方是空格,哪些地方是数字,这样就不会陷入其他AI的误区中去。当然最先给出正确答案的,也是chatGPT,他聪明的用了一个脚本去计算结果,并很快的给出了答案,冠军就是ChatGPT. 从输出看思考了3m42s。
w2.jpg
其他几个,反正都是弱智。比如grok, 我不知道他的逻辑是什么,居然跑到网络上去搜索去了?搞不懂....
w3.jpg
花了很长一段时间,搜索出一大堆乱七八糟的内容,结果什么都没做出来。然后gemini. 我也不知道为什么,他也是说着说着,直接跑了,连历史记录数据都没有了.然后我又从新跑了一轮回答,这一次直接给出了正确答案,不知道怎么回事
w4.jpg

最令我失望的是DeepSeek, 我满心欢喜的期待其前段时间发布的那个OCR识别能力,能在这个场景下完成的很好,但从识别能力来看,好像不太聪明的样子。
w5.jpg

然后是豆包,豆包感觉就是一个莽子,识别能力不错,但数学逻辑推理能力堪忧,很快就输出了数据,但我觉得豆包没有学数独,完成的结果完全不满足数独的规则,结果也是错的。
w6.jpg
然后是kimi, 思考了一会,和千问一样,放弃了,直接要我确认输入的数据是什么样的。
w7.jpg
第二轮,我将正确的结果给到第一轮失败的几个AI,这次通义千问还是一如既往的优秀,说着说着就开始彪英语了。当然最终的结果是正确的。
w8.jpg
而豆包,就是个倔强的牛,拉都拉不回来,依然错误。而最搞笑的是,他居然说“要不要我帮你整理一份数独每宫格的推理逻辑清单?” 此时此刻,我感觉智商受到了侮辱。
w9.jpg
然后是grok, 我看到他的输出,我也是菊花一紧,感觉要出大事,我不知道Grok对我的输入做了什么操作,为什么别人能识别回车,他直接把回车符号给我删了。。。
w10.jpg
最后最让我伤心的是deepseek,因为我平时用的最多的就是他,他最自豪的也是推理能力,但是吧,他居然做错了。 。
w11.jpg
然后是kimi, 果不其然,也是错的。
w12.jpg
最终结果
通义deepSeekKimi豆包Geminichatgptgrok
2轮正确两轮错误两轮错误两轮错误一轮错误,一轮正确一轮正确两轮错误
整体来说Chat GPT的逻辑最优,Gemini 稳定性欠佳,国产豆包是个犟种,DeepSeek和kimi还是有待提升。grok感觉吹牛的水分比较大。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-12 15:55 , Processed in 0.101869 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表