如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-18 17:40:12
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-24 19:30:12如何看待多地开展查摆年轻干部玩心重、贪图享乐、说话随意、社会交往复杂、生活不检点等问题的行动?
- 2025-06-24 19:00:11为什么我感觉现代医学还是很落后?
- 2025-06-24 18:50:11Windows有哪些神级软件?
- 2025-06-24 18:40:11如何看待alist被转手出售***?
- 2025-06-24 17:55:13创业公司是否应该使用 Rust ?
- 2025-06-24 18:05:12如何评价前端组件库shadcn/ui?
- 2025-06-24 18:45:12在韩国生活有什么体验?
- 2025-06-24 18:05:12发生医疗纠纷,应该申请什么鉴定?
- 2025-06-24 19:10:11为什么在日本是实体店干掉电商,在中国却是电商干掉实体?
- 2025-06-24 19:10:11怎么才能有尤雨溪一半强,该怎么学习?
推荐产品
-
怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令?
以前都说顺丰的带宽高,现在双肩包的也高了吧。 80T 的服 -
Rust 的设计缺陷是什么?
设计缺陷谈不上,只能说是我不***用Rust的原因。 借用 -
请问27寸4K显示器哪个好呀?
我原先考虑想买个27寸4K 160Hz打游戏,结果一看75寸 -
一个人在周末做什么最享受?
周五下班,回家楼下打包好卤味,买点提子、耙耙柑。 回到家,
新闻动态
最新资讯

