如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-22 05:30:09
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-28 23:55:11Go 语言的使用感受是什么?
- 2025-06-29 00:50:11多益网络输了餐费官司,准备近几年搬离广州,你怎么看?
- 2025-06-29 01:35:11为什么都认为无GC语言一定会比有GC语言要快?
- 2025-06-29 00:20:11日本制造的质量真的就那么好吗?
- 2025-06-29 00:45:11为什么现在键盘轴体不用颜色命名了,全是些莫名其妙的名字,看不懂到底是什么?
- 2025-06-29 00:55:10苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
- 2025-06-29 00:15:12obsidian用一两年后会有多大?全文搜索还快吗?
- 2025-06-29 00:00:12「苏超」宿迁队球员为房企站台遭质疑,商业化会对「草根」竞技体育带来哪些影响?
- 2025-06-29 01:30:10什么笑话让你看一次笑一次?
- 2025-06-29 01:00:11搞了NAS之后去哪里下载4K,8K的电影?
推荐产品
-
Electron 做游戏客户端的潜力有多大?
Electron既不是游戏引擎,也不是新时代,也不会带来变革 -
有没有一瞬间很心疼一个孩子?
女儿两岁多的时候,妈妈带她客厅玩,我在房间玩了一会儿cod, -
为什么全网 都在说 iOS 开发不行了 ?
2025-06-26 本人后端分布式领域技术人员,从来没开发 -
网站开发需要多久?
首先你这真是个无聊的问题,稍微想一想就能明白的,就我这么多年
最新资讯

