如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-23 14:50:13
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-22 15:10:11macos 不流畅如何处理?
- 2025-06-22 14:35:12如何评价阿富汗取消与中国的石油开***合同?
- 2025-06-22 15:50:11为什么国内瓦洛兰特那么厉害,csgo 却比赛成绩不行?
- 2025-06-22 15:00:11如何评价《灵笼 2》第六集?
- 2025-06-22 15:05:11为什么中国电信的iptv一定要有网线连接!?
- 2025-06-22 16:20:11如何评价***伊内斯·特洛奇亚的身材?
- 2025-06-22 14:55:11伊朗这次让以色列打惨了,这个国家还能挺过来吗?
- 2025-06-22 14:55:11Linux下监控流量一般使用什么工具?
- 2025-06-22 16:20:11为何说香港《稳定币条例》将改写未来世界比特币等数字货币市场格局,港币和人民币的国际化会受益于此么?
- 2025-06-22 15:15:11美军 B-2 轰炸机参与袭击伊朗核设施,B-2轰炸机战斗力如何?会摧毁伊朗核设施吗?
推荐产品
-
国产手机AI「好用」的背后,是技术差距还是文化差异?
前段时间回国参加了一些活动,还跟一些国内做AI的朋友深入的聊 -
Python+rust会是一个强大的组合吗?
不不不,把python去掉,只用rust。 组合个毛线啊, -
为什么越来越多的人反感亲戚来家里住?
因为感觉自己被冒犯到。 有两次,恰巧老公都不在家,我一个人在 -
苹果从 2026 年发布的 macOS 27 起不再兼容任何 Intel Macs,这背后原因有哪些?
丸辣,Rosetta2的AVX2支持才刚起步就要被抛弃辣。
最新资讯

