首页 > 财税观点 > 财税观点 > Grok3翻车了 回答9.11比9.9大

Grok3翻车了 回答9.11比9.9大

发布时间:2025-02-19 15:51:52来源: 13041198719

马斯克又搞了个大动作,xAI团队发布了Grok3,宣称这是“天下最聪明”的AI。

按照马斯克的说法,这玩意儿在数学、科学和编程测试里把其他主流模型都秒了,甚至还能参与SpaceX的火星任务计算,未来三年内有望实现诺贝尔奖级别的突破。听起来是不是很牛?但事实真的如此吗?

 

先别急着吹捧,实测结果让人有点大跌眼镜。

有人问了Grok3一个简单得不能再简单的问题:“9.11与9.9哪个大?”结果它愣是没答对!

这可不是个例,海外也有不少类似的测试,比如“比萨斜塔上两个球哪个先落下”,这些基础的物理、数学问题,Grok3都搞不定,被网友调侃为“天才不愿意回答简单问题”。

更搞笑的是,在xAI的发布会直播里,马斯克还用Grok3分析他爱玩的游戏《流亡黯道2》,结果Grok3给出的答案大部分都是错的,马斯克居然都没发现。这下好了,不仅被海外网友抓住把柄,说他打游戏“找代练”,也让大家对Grok3的实际应用可靠性产生了大大的怀疑。

 

再来看看Grok3的性能和榜单表现。

官方PPT里说Grok3在大模型竞技场Chatbot Arena里“遥遥领先”,可这其实是用了点小技巧,把榜单纵轴限定在1400-1300分段,把1%的测试结果差距给放大了。

实际上,Grok3的跑分只比DeepSeek R1和GPT4.0高出1%~2%,很多用户测试后也觉得没啥明显差别。

而且,xAI之前就被指责在榜单里“刷分”,Grok2时代就靠大量数据堆出高分,结果榜单调整回答长度风格的权重后,分数就直线下降。这次Grok3的高分,背后是20万张H100显卡,两亿小时的训练,代价不可谓不高。

有网友算了一笔账,DeepSeek V3用2000张H800训练两个月,算力消耗是Grok3的1/263,可它在榜单上的得分和Grok3差距不到100分。这说明啥?模型越大,性能越强的逻辑已经出现明显的边际效应了!

财税观点更多>>

苹果宣布印度产AirPods即将投产 供应链多元化战略再升级 山东滨州北海经济开发区公开招聘 区属国有企业人员公告 省市最新发布招录招聘信息!涉及十堰这些岗位 2025年常州市事业单位 统一公开招聘工作人员公告 郑州轻工业大学2025年度公开招聘高层次人才工作方案 上海市竞技体育训练管理中心公开招聘事业单位工作人员3名 【紧急招聘】兰州千彩飞翔科技有限公司招聘公告 30人!中国工商银行河北雄安分行最新招聘→ 江苏省人力资源和社会保障厅 发布江苏省2025年省属事业单位 统一公开招聘人员公告 浙江省省属事业单位2025年上半年集中公开招聘人员公告 国补拉动消费电子高端化,TCL科技等高世代面板产线拥有者受益 电视进化史再添神作!TCL C12K震撼登场 TCL中环获融资买入1.51亿元,近三日累计买入2.57亿元 中兴通讯获融资买入3.90亿元,居两市第24位 小米2024年智能手机业务收入1918亿元 超2000家企业参展!福建建博会开幕 润邦股份:两台GENMA移动式港口起重机(MHC)顺利抵达美洲客户码头 花旗:将小米目标价上调至73.5港元 维持买入评级 苹果正式停止签署iOS 18.3.1,用户无法再降级 一场发布会为何让我坚定选择TCL电视 AI赋能热泵革命 TCL空气能携全系新品亮相中国热泵展 北京新地王诞生,楼面价10.24万/平,史上最贵 3月20日18强赛赛程出炉!国足战沙特,中央5套转播表:公布节目单 调查指港雇主预计今年第二季招聘步伐正面及稳步上升 生态环境部在京部属单位公开招聘51名应届毕业生 编内8人!泉州一单位公开招聘→ 【社招】国机集团总部2025年社会招聘公告 南京中兴新软件取得一种拓扑资源的恢复方法、系统及电子设备专利 早醒是抑郁症的常见症状 研究:人类智力似乎正在走下坡路