麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

OpenAI最新研究:當前AI模型仍無法媲美人類程序員快訊

IT之家 2025-02-24 10:12
分享到:
導讀

盡管這些前沿模型能夠快速地處理一些細節任務,任何模型若想被真正用于實際編程任務,OpenAI 對三款大型語言模型(LLMs)進行了測試。

2 月 24 日消息,盡管 OpenAI 首席執行官薩姆?奧爾特曼(Sam Altman)堅稱,到今年年底,人工智能模型將能夠超越“低級別”軟件工程師,但該公司研究人員的最新研究卻表明,即使是目前最先進的 AI 模型,仍無法與人類程序員相媲美。

研究人員在一篇新論文中指出,即使是前沿模型 —— 即那些最具創新性和突破性的 AI 系統 ——“仍然無法解決大多數”編程任務。為此,研究人員開發了一個名為 SWE-Lancer 的新基準測試工具,該工具基于自由職業者網站 Upwork 上的 1400 多個軟件工程任務。通過這一基準測試,OpenAI 對三款大型語言模型(LLMs)進行了測試,分別是其自身的 o1 推理模型、旗艦產品 GPT-4o,以及 Anthropic 公司的 Claude 3.5 Sonnet。

具體而言,這一新基準測試評估了這些 LLMs 在處理 Upwork 上的兩類任務時的表現:一類是個體任務,涉及修復漏洞并實施修復措施;另一類是管理任務,要求模型從更宏觀的角度做出更高層次的決策。值得注意的是,在測試過程中,這些模型被禁止訪問互聯網,因此它們無法直接抄襲網上已有的類似答案。

這些模型所承擔的任務在 Upwork 上的價值累計可達數十萬美元,但它們僅能解決一些表面的軟件問題,卻無法在大型項目中真正找到漏洞及其根源。這種“半成品”的解決方案,對于與 AI 有過合作經驗的人來說并不陌生 ——AI 擅長輸出聽起來自信滿滿的信息,但在仔細審查時往往漏洞百出。

盡管論文指出,這三款 LLMs 通常能夠“遠快于人類”地完成任務,但它們卻無法理解漏洞的廣泛性及其背景,從而導致解決方案“錯誤或不夠全面”。

研究人員解釋稱,Claude 3.5 Sonnet 的表現優于另外兩款 OpenAI 模型,并且在測試中“賺取”的金額也超過了 o1 和 GPT-4o。然而,其大多數答案仍然是錯誤的。研究人員指出,任何模型若想被真正用于實際編程任務,都需要具備“更高的可靠性”。

簡而言之,該論文似乎表明,盡管這些前沿模型能夠快速地處理一些細節任務,但它們在處理這些任務時的技能水平,仍遠遠不及人類工程師。

盡管近年來這些大型語言模型取得了快速的發展,并且未來還會繼續進步,但它們目前在軟件工程領域的技能水平仍不足以取代人類。然而IT之家注意到,這似乎并未阻止一些首席執行官解雇人類程序員,轉而使用這些尚未成熟的 AI 模型。(遠洋)

模型 任務 人類 研究 無法
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 免费日韩 | 香蕉久久一区二区三区啪啪 | 很黄的孕妇a级黄毛片 | 四虎永久免费地址 | 香蕉久久夜色精品国产尤物 | 精品9e精品视频在线观看 | 91韩国女主播 | 日韩精品福利视频一区二区三区 | 色老板在线免费观看 | 精品国产欧美一区二区五十路 | 四虎影音先锋 | 99精品免费观看 | 欧美亚洲天堂网 | 好爽视频 | 69日本人xxxx16—18 | 亚洲乱亚洲乱妇41p 亚洲乱码一区二区三区国产精品 | 缴情五月天 | 办公室大战秘书呻吟 | 欧洲第一区第二区第三区 | 日本搜子同屋的日子2国语 日本爽p大片免费观看 | bnb998八度免费影院丫意浓 | 四虎影视国产精品婷婷 | 亚洲乱亚洲乱妇41p国产成人 | 国产成人小视频在线观看 | 青青久在线视频免费观看 | 欧美精品日韩 | t66y地址一地址二地址三 | 四虎影视在线永久免费观看 | 国产在线精品成人一区二区三区 | 色综合天天娱乐综合网 | 四虎精品成人免费影视 | 国产色图片 | 男人天堂久久 | 成人国产精品一区二区不卡 | 日本情趣视频 | nxgx在线观看国产中文 | 高清毛片aaaaaaaaa片 | 亚洲成人精品久久 | 国语自产拍在线观看7m | 美女张开大腿让男人桶 | 精品精品国产自在久久高清 |