“博士级”AI被一张卷子打回原形,你手里的GPT-5可能连本科补考都过不了。
我盯着那份4%的进阶题正确率,脑子里蹦出的是当年高数59分的噩梦。
AAI公司把图论、动态规划、MSO逻辑揉进一张考卷,就像把奥数、物流、芯片布线塞进同一道大题,人类博士能啃半小时,AI直接交白卷。
有人觉得这只是又一场“AI翻车”流量狂欢,可你得知道,这套FormulaOne不是刷LeetCode那种套路题,它模拟的是真实世界的供应链调度——比如双十一那天,怎样把千万个包裹在48小时内塞进有限的货车和航班,还要考虑天气、油价、司机工时。
GPT-5能写代码,却搞不定“如果北京暴雨,天津的货要不要临时改走铁路”这种连环因果。
我拉来一位在顺丰做算法的朋友,他看完题目直摇头:这些状态空间爆炸的场景,人类靠经验和直觉剪枝,AI只会暴力枚举,内存当场撑爆。
AAI把“最深层”问题切成十步,前两步错一点,后面直接雪崩,像极了我写论文时引用错一个公式,整章推倒重来。
更扎心的是,奥特曼吹过的“博士级”牛皮,现在成了行业笑柄。
MIT的哥们告诉我,他们实验室早把大模型拉到数学系做盲测,结论简单粗暴:模式匹配不等于推理,背题库不等于会解题。
就像你背了1000篇高考作文,真让你现场写“如何在火星种菜”,照样抓瞎。
OpenAI现在装死不回应,却悄悄把GPT-5的API价格打骨折,懂的都懂。
Meta和Google已经抄作业,准备搞自己的“工业级烤机”榜单,毕竟谁家AI要是能在FormulaOne拿到哪怕20分,物流、芯片、航空公司的预算就会像洪水一样涌进来。
我翻了下AAI的排行榜,目前人类最高分68,AI集体挂零。
别急着嘲笑,换个角度想,这恰恰说明人类还有护城河——我们能在信息不全时拍脑袋做决策,能在十万个变量里凭直觉砍掉99%的无用枝丫。 幸运飞艇开奖结果
AI要追上这一步,恐怕得先学会“犹豫”和“后悔”。
所以下次再听到“AI将取代所有博士”的鬼话,直接把这份零分报告甩过去。
真正的博士不是会背公式,而是知道什么时候该扔掉公式。
转载请注明来自Nkqfj,本文标题:《奥特曼打僵尸博士(GPT5惨遭零分打脸)》
还没有评论,来说两句吧...