如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-18 15:35:14
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-25 16:00:14你知道哪些不为人知的历史照片?
- 2025-06-25 16:35:14男友凌晨高速开车,我情绪崩溃了,谁的错?
- 2025-06-25 17:05:13为什么中国开发不出流行的编程语言?
- 2025-06-25 17:20:15为什么 Linux 软件安装包会有依赖关系,而 Windows 软件安装包不需要?
- 2025-06-25 16:00:14微软 VS Code 1.101 发布,集成 MCP 协议,这对用户体验有哪些改变?
- 2025-06-25 15:55:13kvm是否会增加显示信号的传输延迟,或者键鼠的延迟?打游戏用这个,会影响吗?
- 2025-06-25 16:20:14紧身牛仔裤看起来不正经,真的是这样吗?
- 2025-06-25 16:30:13如何评价 .NET 平台的跨平台 UI 库 Avalonia UI?
- 2025-06-25 17:40:13能够自己一个人创业的全栈web码农fullstack developer要会哪些技术?
- 2025-06-25 17:00:13ssd固态硬盘sata的好还是m.2好呢?
推荐产品
-
为什么一部分 Go 布道师的博客不更新了?
哈哈,首先我不是布道师,算是 go 语言的爱好者吧。 😄 自 -
在微软(Microsoft)工作是怎样一番体验?
休***中,就聊聊休***吧。 MS休***政策非常人性化 -
flutter是***跨平台最优解吗?
经过半个多月高强度研发,最新版Flutter3.x深度融合 -
为什么大家不再提星链了(包括外网)?
之前在北京拜访,有幸听过丁院士的航空知识课程。 我印象比较
新闻动态
最新资讯

