如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-20 20:10:11
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-27 13:45:13中国Internet的主干网?
- 2025-06-27 15:00:14你捡过最大的漏是什么?
- 2025-06-27 14:00:13Golang 中为什么没有注解?
- 2025-06-27 15:15:14什么是你去了台湾才知道的事?
- 2025-06-27 14:05:14macOS 系统有哪些软件可以被你评为“必装”?
- 2025-06-27 14:30:14为什么苹果电脑把内存硬盘焊死在主板,还订制了不通用的内存硬盘接口?
- 2025-06-27 15:10:13为什么很多陕西人做饭一点都不讲究?
- 2025-06-27 14:05:14我国有没有通过放开一户建,拉动房地产和汽车等行业消费的可能性?
- 2025-06-27 14:45:13苹果的工程师画图纸的时候用的是苹果电脑还是Windows电脑?
- 2025-06-27 15:10:13日本AV对中国人的毒害有多大?
推荐产品
-
为什么是 9 月 3 日阅兵而不是 10 月 1 日国庆阅兵?
1、等不了了,十一国庆大阅兵是十年一次,下次在2029年,还 -
有没有宝塔平替的服务器管理面板,现在宝塔越来越贵了,也太臃肿了?
[Hestia]开源网络服务器控制面板,快速、可靠、开源便捷 -
月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点?
一个成语来总结,见微知著。 这是我用Kimi Resear -
柳州的债务,谁来还?用什么还?怎么还?
看老表们敢不敢学雍正下刀子。 目前已公开案件均值约 100
最新资讯

