首页 > 财税观点 > 财税观点 > Grok3翻车了 回答9.11比9.9大

Grok3翻车了 回答9.11比9.9大

发布时间:2025-02-19 15:51:52来源: 13041198719

马斯克又搞了个大动作,xAI团队发布了Grok3,宣称这是“天下最聪明”的AI。

按照马斯克的说法,这玩意儿在数学、科学和编程测试里把其他主流模型都秒了,甚至还能参与SpaceX的火星任务计算,未来三年内有望实现诺贝尔奖级别的突破。听起来是不是很牛?但事实真的如此吗?

 

先别急着吹捧,实测结果让人有点大跌眼镜。

有人问了Grok3一个简单得不能再简单的问题:“9.11与9.9哪个大?”结果它愣是没答对!

这可不是个例,海外也有不少类似的测试,比如“比萨斜塔上两个球哪个先落下”,这些基础的物理、数学问题,Grok3都搞不定,被网友调侃为“天才不愿意回答简单问题”。

更搞笑的是,在xAI的发布会直播里,马斯克还用Grok3分析他爱玩的游戏《流亡黯道2》,结果Grok3给出的答案大部分都是错的,马斯克居然都没发现。这下好了,不仅被海外网友抓住把柄,说他打游戏“找代练”,也让大家对Grok3的实际应用可靠性产生了大大的怀疑。

 

再来看看Grok3的性能和榜单表现。

官方PPT里说Grok3在大模型竞技场Chatbot Arena里“遥遥领先”,可这其实是用了点小技巧,把榜单纵轴限定在1400-1300分段,把1%的测试结果差距给放大了。

实际上,Grok3的跑分只比DeepSeek R1和GPT4.0高出1%~2%,很多用户测试后也觉得没啥明显差别。

而且,xAI之前就被指责在榜单里“刷分”,Grok2时代就靠大量数据堆出高分,结果榜单调整回答长度风格的权重后,分数就直线下降。这次Grok3的高分,背后是20万张H100显卡,两亿小时的训练,代价不可谓不高。

有网友算了一笔账,DeepSeek V3用2000张H800训练两个月,算力消耗是Grok3的1/263,可它在榜单上的得分和Grok3差距不到100分。这说明啥?模型越大,性能越强的逻辑已经出现明显的边际效应了!

财税观点更多>>

周星驰新片将开机 演员阵容遭质疑 雷军说第一个接受采访有点小紧张 才发现惊蛰与桃花的适配度这么高 大学女生1年攒5万元游遍20多城 短剧顶流何健麒被定为劣迹演员 雷军为不锈钢纸杯征名 Lisa回应与LV三公子恋情 代表建议尽早实施12年义务教育 苹果64GB时代彻底宣告结束 李嘉诚拟228亿美元卖掉巴拿马等港口 1.88元考试神器换名再上架 逐步推行免费学前教育 今年GDP增长预期目标为5%左右 政府工作报告:发放育儿补贴 库克不讲武德!iPhone13重新上架,半价拿下,不到3000块! 《哪吒2》冲击全球影史票房第6 董明珠称挖人是小偷行为:我们人才都是高校毕业生招进来 炸裂!41岁港星神秘二婚,竟嫁山东农村,婚礼细节全曝光! 小米不锈钢直饮杯引爆市场:环保理念与创新设计催生现象级热销! 怀孕 34 周无异常,7 号查怀孕 8 号生:隐性妊娠与急产罕见警示 杨紫跳舞视频爆火,竟成文旅发展新引擎? 1元发卡巴黎世家卖2700 苹果新增8款Emoji 【雷军两会提议:新能源车牌该换颜色了!网友:绿牌拉低颜值?】 王大发刘大锤账号被封 13岁女生发现脊柱侧弯 麦当劳的中年危机:从快餐巨头到情绪荒漠 别让熬夜,“震落”了耳朵里的“小石头” 22岁女孩收哪吒玩具遭群嘲:这届父母连爱都不会表达了? 两会好建议又来了,涉及住房、社保、工资福利,太接地气了!