如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-20 11:30:14
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-19 20:30:10马上领证了,发现男朋友离不了游戏,让他少打游戏他会非常生气,正常吗?
- 2025-06-19 21:20:10055一打一能不能打过阿利伯克?
- 2025-06-19 20:15:10为什么欧美影视喜欢露点?
- 2025-06-19 19:40:11如何评价前端框架 Solid?
- 2025-06-19 19:35:11自己拥有一台服务器可以做哪些很酷的事情?
- 2025-06-19 20:20:10为什么CCTV-6总是能播一些连院线都上不了的电影?
- 2025-06-19 21:20:10你身边身材最好的女生是什么样?
- 2025-06-19 21:05:11我的实际车速是66km/h,旁边有车超速,我被拍了违章,说是车速85km/h,怎么申诉?
- 2025-06-19 21:20:10如何评价黄磊?
- 2025-06-19 20:20:10为什么越来越多的国内男孩,要娶国外女孩?
推荐产品
-
邻居家小孩来敲门问WiFi密码,告诉他之后,他竟然几部手机电视全用上。你说该怎么办?
头几年业主群里有个女的加我老婆微信,说自己是我家楼下的业主, -
马上领证了,发现男朋友离不了游戏,让他少打游戏他会非常生气,正常吗?
你不用改变,继续不让他打游戏。 家里绝对禁止打游戏,发现单 -
广州的公共交通为什么这么烂?
题主声称是粤黑,可是题主迄今提的十几个问题的水准,就不是网上 -
商业史上有哪些降维打击的经典案例?
因为炮叔叔在网创圈,野路子比较多,这里就拿一些网创圈的案例来
新闻动态
最新资讯

