如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-19 13:20:12
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2026-01-23 11:15:13半年失业预警、中美差距仅6个月、AI泡沫论…达沃斯聚光灯下,AI巨头掌舵人激辩_岗位_哈萨比斯_技术
- 2026-01-22 08:30:03马斯克奥特曼干起来了,结果曝光了 OpenAI 最大的「宫斗」秘密_纳德拉_亿美元_ChatGPT
- 2026-01-18 23:10:03中国科大“自刻蚀”技术攻克材料难题:二维半导体加工获重大突破,实现原子级“马赛克”异质结可控构筑_结构_图案化_内应力
- 2026-01-29 09:50:03突发!亚马逊裁员16000人,网友曝北京裁员50%,整组被“一锅端”_Galetti_职位_约合
- 2026-01-26 08:40:02300万,撬开中国太空旅游的门_商业_航天_飞船
- 2025-06-29 12:05:12我应该设置多少kb才能让他不能玩游戏?
- 2025-06-29 11:40:12为什么几乎没人用电视屏幕连主机或者笔记本当显示器?
- 2026-01-23 09:40:03国际首次!嫦娥六号月壤研究有新进展 专家解析两种材料特别之处_单壁_缺陷_月球
- 2025-06-29 11:40:12女明星陪酒真的存在吗?
- 2026-01-12 02:00:02语聊房竟成***服务叫卖场所:一个隐秘的灰色地带 - *
推荐产品
-
4月旅游户外类创业公司传播影响力TOP10:驴迹科技排名逆势上升 - *
5月21日,《2020年4月旅游户外类创业公司传播影响力TOP10》榜单出炉,广州市驴迹科技有限责任公司(以下简称“驴迹科技”)排名逆势上升,以849.2的青创指数位列第五,仅次于飞猪旅行、途牛、斑***员和同程旅游。 -
元宝豪掷10亿元红包,大模型盯上春节商机?_产品_现金_春晚
在大模型竞争全面提速的当下,元宝能否借助春节这一流量洪峰,实现腾讯AI的“二次起跑”,成为新的观察点。 如果说过去十年,春节红包更多承担的是互联网产品冷启动、支付工具普及的任务,那么当下,红包正被赋予新的使… -
索尼退场,日本电视全军覆没_业务_市场_品牌
索尼退场,日本电视全军覆没_业务_市场_品牌 -
苹果官宣降价,最高降1000元!_iPhone_中国_系列
有网友表示,台积电2nm芯片成本暴涨80%,导致2026年新机iPhone 18系列或提价,旧款降价可加速清库存。 1月20日,IDC发布的最新数据显示,2025年第四季度,苹果在中国市场的出货量同比增长21…
新闻动态
最新资讯
文章排行

