麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

谷歌聯合研究:合成數據讓大模型數學推理能力飆升八倍快訊

TechWeb.com.cn 2025-04-07 16:33
分享到:
導讀

經過正向和負向合成數據預訓練的大模型,而低優勢步驟可能意味著模型推理存在問題,發布了一項關于合成數據在大型模型訓練中應用的重要研究成果。

【TechWeb】近期,由谷歌、卡內基梅隆大學和MultiOn組成的聯合研究團隊,發布了一項關于合成數據在大型模型訓練中應用的重要研究成果。

專注于人工智能發展的研究機構Epoch AI報告指出,當前全球約有300萬億個公開可用的高質量文本訓練標記。但隨著像ChatGPT這類大模型的快速發展,對訓練數據的需求呈指數級增長,預計在2026年之前,這些現有數據將被耗盡。在此背景下,合成數據成為了關鍵的替代方案。

研究人員著重探索了兩種合成數據類型,即正向數據和負向數據。正向數據是由高性能大模型,如GPT - 4和Gemini 1.5 Pro生成的正確問題解決方案,為模型提供解決數學問題的范例。然而,單純依靠正向數據進行訓練存在明顯局限。其一,這種方式可能無法讓模型真正理解問題解決背后的邏輯,只是通過模式匹配來學習;其二,隨著訓練數據量的增加,模型可能會學到虛假的相關性,導致在處理新問題時泛化能力降低。

有鑒于此,研究人員引入了負向數據,也就是經過驗證為錯誤的問題解決步驟。這能幫助模型識別并避免錯誤,從而增強其邏輯推理能力。盡管使用負向數據存在挑戰,因為錯誤步驟可能包含誤導性信息,但研究人員借助直接偏好優化(DPO)方法,成功讓模型從錯誤中學習,并強調每個問題解決步驟的重要性。

DPO方法會為每個問題解決步驟分配一個優勢值,以反映其相對于理想解決方案的價值。研究發現,高優勢步驟是正確解決問題的關鍵,而低優勢步驟可能意味著模型推理存在問題?;谶@些優勢值,模型能夠在強化學習框架內動態調整策略,更高效地從合成數據中學習和改進。

為驗證合成數據的有效性,研究團隊選用DeepSeek - Math - 7B和LLaMa2 - 7B等模型,在GSM8K和MATH數據集上開展了全面測試。結果令人驚喜,經過正向和負向合成數據預訓練的大模型,在數學推理任務上的性能提升了八倍。這一研究充分彰顯了合成數據在增強大模型邏輯推理能力方面的巨大潛力,為大模型的發展開辟了新的方向。(Suky)

模型 數據 研究 訓練 合成
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 无人区尖叫之夜美女姐姐视频 | 香蕉久久ac一区二区三区 | 精品国产中文字幕在线视频 | 午夜福到在线2019 | 欧美在线高清 | 四虎comwww最新地址 | 免费xxxx日本大片在线观看 | bt伙计最新合集 | 四虎影业| 亚洲图片 自拍偷拍 | 毛片 ftp| 成人在线小视频 | 香蕉eeww99国产精选播放 | 欧美人与日本人xx在线视频 | 国语自产拍在线观看7m | 欧美精品1区2区 | 欧美xxoo做爰猛烈视频 | 国产人成77777视频网站 | 国产精品人人视频 | 小寡妇好紧进去了好大看视频 | 嫩草影院永久在线播放 | 歪歪动漫小说sss | 97啪啪| 久久精品久久久 | 亚洲阿v天堂在线2017 | 成人免费国产欧美日韩你懂的 | 国产亚洲精品aaa大片 | 成人精品| 日韩成人在线影院 | 欧美日韩在线一区二区三区 | 涩涩五月天| 水多多www视频在线观看高清 | 国产亚洲综合精品一区二区三区 | 毛片视频在线免费观看 | 国产啪精品视频网给免丝袜 | 无人区大片免费播放器 | 公妇仑乱在线观看 | 92精品国产成人观看免费 | 久久国产36精品色熟妇 | 污书屋| 奇米9999 |