如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-18 15:05:14
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-23 09:40:13微软暂停专用 Xbox 掌机开发,转而优化 Windows 11 的掌机游戏体验,这背后原因有哪些?
- 2025-06-23 08:25:11你被哪个后来知道很sb的BUG困扰过一周以上吗?
- 2025-06-23 08:35:11为什么 Golang 不适合开发桌面系统?
- 2025-06-23 09:05:13如何看待rust编写的zed编辑器?
- 2025-06-23 09:20:13为什么这次以色列打伊朗,网上声讨的人少了,反而都是嘲笑调侃伊朗?
- 2025-06-23 09:45:13switch2好用吗朋友们?
- 2025-06-23 08:50:12为什么似乎更多人都在默默支持吴柳芳?管晨辰是否做错了?
- 2025-06-23 09:25:13可以随身携带一个Linux系统吗?
- 2025-06-23 09:10:13人们在 DOS 年代如何办公?
- 2025-06-23 09:55:13相对于 Linux,Windows Server 存在的意义是什么?
推荐产品
-
明明无线鼠标有那么多优点,为什么还有那么多人买有线鼠标?
我有一个绝妙的点子,解决蓝牙鼠标容易被忘在会议室、实验室、高 -
「苏超」用 5—10 元的低价门票,为全省「踢」出超 3 亿元真金白银,「苏超」爆火做对了什么?
我觉得, 长久以来,中国足球金字塔体系有个很大的问题: 割裂 -
后端直接返回所有数据,由前端完成分页处理,这种开发模式有可行性吗?
我说个真实的事情,医院老系统是C/S架构的,大概1W多条数据 -
为什么任天堂在NS2上没有选择使用OLED屏幕以提升续航能力和显示效果?
一堆懂哥说任天堂屏幕不是定制的,然而事实上不仅是定制的,而且
新闻动态
最新资讯

