如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-25 04:20:09
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-19 14:50:14如果战争爆发,中国普通老百姓枪都不会打该怎样自卫?
- 2025-06-19 14:05:13有没有一个时间段,自己乐在其中,可亲人或者朋友却觉得你很辛苦,很心疼你?
- 2025-06-19 14:00:12一个程序员的水平能差到什么程度?
- 2025-06-19 15:25:13如何看待郑钦文盘中破发点换鞋?
- 2025-06-19 14:35:14女明星陪酒真的存在吗?
- 2025-06-19 14:15:14Rust的设计缺陷是什么?
- 2025-06-19 14:40:14为什么很多警察想辞职?
- 2025-06-19 14:00:12陌生人晕倒了,帮他拨打120后,病人不支付120出车费,这个费用谁来承担?
- 2025-06-19 15:50:13怎么看待B站舞蹈区和某些风格比较暴露的up?
- 2025-06-19 14:40:14儿子抑郁四年左右了,他的未来该怎么办?
推荐产品
-
《哪吒2》刚上映是基本上都是好评,随着延期到六月底为什么部分观众开始带节奏,表示反感了呢?
如果你是一个普通人,你会对《哪吒2》延期表示不满吗? 它在电 -
电磁力可以屏蔽,为什么万有引力不可屏蔽?
这个问题提得很棒,而且很多人第一次听说这个现象时都会好奇: -
为什么不趁以色列美国与伊朗打的火热的时机收复台湾的?
实际上现在老中有两套打法。 一套是等美国入局伊朗,这边围台 -
韩寒现在为什么不写书了呢?
韩寒在10年前后搞了个杂志叫独唱团。 市场反响很好。 然
新闻动态
最新资讯

