麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

OpenAI o3模型基準測試成績遭質疑,實測分數遠不及宣稱快訊

IT之家 2025-04-21 09:42
分享到:
導讀

盡管公開版本的 o3 未能完全達到 OpenAI 測試時的表現,而并非是 OpenAI 上周公開發布的版本,我們與 OpenAI 的結果差異可能是因為 OpenAI 在內部評估時使用了更強大的計算框架、更多的測試時計算資源。

4 月 21 日消息,OpenAI 的 o3 人工智能模型的第一方與第三方基準測試結果存在顯著差異,引發了外界對其公司透明度和模型測試實踐的質疑。

去年 12 月,OpenAI 首次發布 o3 模型時宣稱,該模型能夠在 FrontierMath 這一極具挑戰性的數學問題集上正確回答超過四分之一的問題。這一成績遠遠超過了競爭對手 —— 排名第二的模型僅能正確回答約 2% 的 FrontierMath 問題。OpenAI 首席研究官 Mark Chen 在直播中表示:“目前市場上所有其他產品在 FrontierMath 上的成績都不足 2%,而我們在內部測試中,使用 o3 模型在激進的測試時計算設置下,能夠達到超過 25% 的正確率。”

然而,這一高分似乎是一個上限值,是通過一個計算資源更為強大的 o3 模型版本實現的,而并非是 OpenAI 上周公開發布的版本。負責 FrontierMath 的 Epoch 研究所于上周五公布了其對 o3 模型的獨立基準測試結果,發現 o3 的得分僅為約 10%,遠低于 OpenAI 此前聲稱的最高分數。

這并不意味著 OpenAI 故意撒謊,該公司在 12 月份公布的基準測試結果中也包含了一個與 Epoch 測試結果相符的較低分數。Epoch 還指出,其測試設置可能與 OpenAI 有所不同,并且其評估使用了更新版本的 FrontierMath。Epoch 在報告中寫道:“我們與 OpenAI 的結果差異可能是因為 OpenAI 在內部評估時使用了更強大的計算框架、更多的測試時計算資源,或者是因為這些結果是在 FrontierMath 的不同子集上運行的(例如 2024 年 11 月 26 日版本的 180 個問題與 2025 年 2 月 28 日私有版本的 290 個問題)。”

此外,ARC Prize 基金會(一個測試了 o3 預發布版本的組織)在 X 平臺上發布消息表示,公開發布的 o3 模型是一個“針對聊天 / 產品使用進行了調整的不同模型”,這進一步證實了 Epoch 的報告。ARC Prize 還指出:“所有發布的 o3 計算層級都比我們測試的版本要小。”一般來說,更大的計算層級通常可以獲得更好的基準測試分數。

值得注意的是,盡管公開版本的 o3 未能完全達到 OpenAI 測試時的表現,但這在一定程度上已不再是關鍵問題,因為該公司后續推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表現已經優于 o3。此外,OpenAI 計劃在未來幾周內推出更強大的 o3 版本 o3-pro。

然而,此事再次提醒人們,人工智能基準測試結果最好不要完全照單全收,尤其是當結果來自一家有產品需要銷售的公司時。隨著人工智能行業競爭的加劇,各供應商紛紛急于通過推出新模型來吸引眼球和市場份額,基準測試“爭議”正變得越來越常見。

注意到,今年 1 月,Epoch 因在 OpenAI 宣布 o3 之后才披露其從 OpenAI 獲得的資金支持而受到批評。許多為 FrontierMath 做出貢獻的學者直到公開時才知道 OpenAI 的參與。最近,埃隆?馬斯克的 xAI 被指控為其最新的人工智能模型 Grok 3 發布了誤導性的基準測試圖表。就在本月,Meta 也承認其宣傳的基準測試分數所基于的模型版本與提供給開發者的版本不一致。(遠洋)

模型 OpenAI 基準測試 版本 FrontierMath
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 美女做又爽又黄又猛 | 亚洲欧美一区二区久久 | 色在线影院| 俄罗斯处女摘花 | 99视频全部看免费观 | 亚洲123区| 91香蕉国产 | 亚洲成av人片天堂网 | 韩国甜性涩爱在线播放 | 国产a一级毛片爽爽影院 | 天若有情1992国语版完整版 | 国产成人影院一区二区 | 亚洲国产在线观看免费视频 | 黑人巨大vs北条麻妃在线 | free哆拍拍免费永久视频 | 男人猛戳女人下部30分钟 | 91久久青青青国产免费 | 掰开逼操 | 四虎影院免费在线 | 成人18视频在线观看 | 亚洲 日本 天堂 国产 在线 | 国产色网| 牧教师在线观看 | 久久免费资源福利资源站 | julia ann一hd | 好大好爽好硬我要喷水了 | 日本高清色视频www 日本高清免费观看 | 色老板成人永久免费视频 | 国产午夜免费不卡精品理论片 | 免费永久观看美女视频网站网址 | 亚洲AV无码乱码在线观看浪潮 | 嫩草视频在线观看免费 | 97色资源 | tobu8中国在线观看免费视频 | 色综合天天综合 | 久久综合狠狠综合久久综合88 | 国产一区在线播放 | 91欧美秘密入口 | 久久精品一区二区三区资源网 | 深夜网站在线观看 | 含羞草传媒每天免费一次破解 |