如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-18 00:55:11
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-18 22:20:11如果是巴基斯坦被印度击落三架歼-10C,这些天舆论会是怎样的?
- 2025-06-18 23:45:11是什么原因让你一定要用 iPhone?
- 2025-06-18 22:15:12Gemini 2.5 Flash 和Pro稳定版上线,和之前版本相比,在性能和应用场景上有哪些提升?
- 2025-06-18 22:30:12UI图标与ICON图标的区别?
- 2025-06-18 22:20:11如何看待伊朗疑似击落F35?
- 2025-06-18 22:55:12为什么QQ上的网络状态没有了?
- 2025-06-18 22:30:12巴基斯坦援助伊朗防空,大家怎么看?
- 2025-06-18 22:30:12理论上flutter性能应该非常高才对,为什么好些flutter应用性能一般?
- 2025-06-18 23:35:118 岁小孩偷花 1 万多买 26 箱荔枝,孩子父亲称在商品未发货时申请退款被拒,这合理吗?
- 2025-06-18 22:30:122025年,歼16与美军机50分钟缠斗,为什么知乎上没有任何消息?
推荐产品
-
维护一个大型开源项目是怎样的体验?
谢邀。 现在全职维护 Vue.js: vuejs/vue · -
公立医生帮联系民营救护车,800 公里收费 2.8 万元,收费合理吗?救护车收费标准是什么?
有两个核心问题: (1)转运救护车的收费标准是什么?(2)本 -
如何看待罗帅宇爸爸新浪微博6月17日放出的材料?
首先,我认为罗帅宇父亲是有前科的。 什么的前科,没事找事,不 -
颈椎生理曲度变直可以通过运动康复吗?
来门诊看颈椎不适、活动不利的年轻人特别多, 他们的颈椎X线片
新闻动态
最新资讯

