OpenAI發(fā)布最新研究,卻在里面夸了一波Claude。
他們提出名為GDPval的新基準(zhǔn),用來衡量AI模型在真實(shí)世界具有經(jīng)濟(jì)價(jià)值的任務(wù)上的表現(xiàn)。
具體來說,GDPval覆蓋了對美國GDP貢獻(xiàn)最大的9個(gè)行業(yè)中的44種職業(yè),這些職業(yè)年均創(chuàng)收合計(jì)達(dá)3萬億美元。任務(wù)基于平均擁有14年經(jīng)驗(yàn)的行業(yè)專家的代表性工作設(shè)計(jì)而成。
專業(yè)評(píng)分人員將主流模型的輸出結(jié)果與人類專家的成果進(jìn)行了對比。
最終測試下來,Claude Opus 4.1成為表現(xiàn)最佳的模型,47.6%的產(chǎn)出被評(píng)定媲美人類專家成果
GPT-5 38.8%的成績和Claude還是有些差距,位居第二;GPT-4o與人類相比只有12.4%獲勝或平局。
沒能成為最優(yōu),OpenAI也給自己找補(bǔ)了:不同模型各有優(yōu)勢,Claude Opus 4.1主要是在美學(xué)方面突出,而GPT-5在準(zhǔn)確性上更優(yōu)
OpenAI還表示,同樣值得注意的是模型的進(jìn)步速度,其前沿模型在短短一年內(nèi),勝率幾乎實(shí)現(xiàn)了翻倍。
最后OpenAI還開源了包含220項(xiàng)任務(wù)的優(yōu)質(zhì)子集,并提供公開的自動(dòng)評(píng)分服務(wù)。
網(wǎng)友看后紛紛表示,非常因吹斯汀的研究:
OpenAI各代模型的性能呈線性增長,以及感謝對競爭對手的認(rèn)可。
還有網(wǎng)友認(rèn)為,這也可能是奧特曼精心設(shè)計(jì)的宣傳手段,通過吹噓AI能為GDP帶來增長而籌集資金。