首页 > 财税知识 > 财税知识 > 9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了

发布时间:2024-07-19 16:28:18来源: 15210273549

导读

一道小学生的数学题竟然难倒了全球AI大模型,只有4个大模型给出了正确答案!这究竟是怎么一回事?快来看看!

 

全球AI大模型被一道小学生数学题难倒

日前,一道来自小学生的数学题却难倒了不少海内外AI大模型,这道题的内容是“9.11和9.9哪个更大”,而仅有4个大模型给出了正确答案。

 

挑战大模型的数学推理能力

大模型的数学能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大进步空间,而此前笔者在采访12位大模型时也得出了一个惊人的结论,这些大模型中仅有4个回答是正确的,而其他8个大模型却都给出了错误的答案。

 

数字切分问题与模型的理解能力

而针对大模型的数学能力,笔者曾进行过深入的采访,大部分行业人士认为大模型数学能力差的根本原因还是出在分词上,即Tokenizer(分词器)在处理数字时会出现问题,导致模型难以正确理解和计算。

 

正确答案揭晓与未来的发展方向

而这道9.11和9.9的大小比较题,12个大模型中,只有阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,其他8个大模型都认为9.11比9.9更大。

 

虽然最终4个大模型给出了正确答案,但这并不能掩饰大模型数学能力的薄弱,毕竟面对简单的大小比较题,8个大模型都给出了错误答案。

 

而对于未来大模型的发展方向,笔者也咨询了不少专家学者以及从业者,针对此前大模型的回答,不少人表示“并不意外”。

一些专家认为,未来在模型的训练数据上会越来越依赖构造型的数据,而不是直接爬取下来的数据,以提升模型的复杂推理能力。

 

因为直接爬取下来的数据中会夹杂大量的错误数据,这些错误数据会误导模型,导致模型做出错误的判断。

而构造型的数据则可以事先筛选,保证数据的准确性和可靠性,从而培养模型健康的思维方式。

财税知识更多>>

理想 L6 深度剖析:25 万级中大型 SUV 的实力担当? 新款雪铁龙 C3 Aircross ——喜欢他的理由有很多 东风风行星海S7再出新版,配置新调整,纯电续航555公里 红旗P301项目首台验证样车下线!预计2026年5月正式投产 长城汽车2025新车巡礼:从越野悍将到百万豪车,总有一款让你心动 长安汽车2月9日举行开年第一场发布会,深蓝S09有望亮相 问了DeepSeek,哈弗和坦克,以及长城汽车的一些问题 吉利银河L6混动和秦PLUS在NVH和舒适性的比较 新风口来袭——DeepSeek AI牵手吉利,共启智能驾驭新时代 小鹏汽车上涨2.93%,报17.035美元/股 小鹏确认:新X9纯视觉智驾,全系取消激光雷达价格能否带来惊喜? 蔚来汽车在中国的第 3,100 个换电站上线 8万起的埃安UT,凭啥敢称“A级颜霸”? “鼠标模式”实锤?任天堂专利透露了Joy-Con的新功能 电脑软件:硬盘信息检测工具 HD Tune Pro v6.00 介绍和使用教程 解码拼多多“新质供给”:产业带高质量转型的新电商实验 上海二手房买卖最新费率:个税,增值税,契税一览 房价若继续下跌,41.5%家庭或迎来“4大难关”,今明两年情况如何? 2025一季度最具性价比的国产手机推荐 下一代宝马X5测试突生意外,深陷雪堆,揭秘新一代豪华SUV的设计 选车不纠结!日产轩逸、丰田雷凌、卡罗拉全方位大对比 2024年北上广最爱买什么车型?特斯拉Model Y成最大赢家 比亚迪多车已支持 博主:双枪充电含金量在25年会不断提升 乐道汽车春节服务:将有1200座换电站投入运营 法媒:关税也不能影响中国电动车成为冠军 品牌年度销量TOP10榜,都说合资不行了,为何自主才4家? 车型年度终端销量排行:SUV、轿车前十油车占四席,MPV油车势危 全新林肯领航员亮相北美车展,车长近5.4米,配48英寸贯穿屏 上汽奥迪A5L路试曝光,溜背轿跑造型亮眼,还有无框车门? 体量惊人但没有像素灯,问界M8无伪装实车曝光,会是爆款吗?