麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

谷歌聯合研究:合成數據讓大模型數學推理能力飆升八倍快訊

TechWeb.com.cn 2025-04-07 16:33
分享到:
導讀

經過正向和負向合成數據預訓練的大模型,而低優勢步驟可能意味著模型推理存在問題,發布了一項關于合成數據在大型模型訓練中應用的重要研究成果。

【TechWeb】近期,由谷歌、卡內基梅隆大學和MultiOn組成的聯合研究團隊,發布了一項關于合成數據在大型模型訓練中應用的重要研究成果。

專注于人工智能發展的研究機構Epoch AI報告指出,當前全球約有300萬億個公開可用的高質量文本訓練標記。但隨著像ChatGPT這類大模型的快速發展,對訓練數據的需求呈指數級增長,預計在2026年之前,這些現有數據將被耗盡。在此背景下,合成數據成為了關鍵的替代方案。

研究人員著重探索了兩種合成數據類型,即正向數據和負向數據。正向數據是由高性能大模型,如GPT - 4和Gemini 1.5 Pro生成的正確問題解決方案,為模型提供解決數學問題的范例。然而,單純依靠正向數據進行訓練存在明顯局限。其一,這種方式可能無法讓模型真正理解問題解決背后的邏輯,只是通過模式匹配來學習;其二,隨著訓練數據量的增加,模型可能會學到虛假的相關性,導致在處理新問題時泛化能力降低。

有鑒于此,研究人員引入了負向數據,也就是經過驗證為錯誤的問題解決步驟。這能幫助模型識別并避免錯誤,從而增強其邏輯推理能力。盡管使用負向數據存在挑戰,因為錯誤步驟可能包含誤導性信息,但研究人員借助直接偏好優化(DPO)方法,成功讓模型從錯誤中學習,并強調每個問題解決步驟的重要性。

DPO方法會為每個問題解決步驟分配一個優勢值,以反映其相對于理想解決方案的價值。研究發現,高優勢步驟是正確解決問題的關鍵,而低優勢步驟可能意味著模型推理存在問題?;谶@些優勢值,模型能夠在強化學習框架內動態調整策略,更高效地從合成數據中學習和改進。

為驗證合成數據的有效性,研究團隊選用DeepSeek - Math - 7B和LLaMa2 - 7B等模型,在GSM8K和MATH數據集上開展了全面測試。結果令人驚喜,經過正向和負向合成數據預訓練的大模型,在數學推理任務上的性能提升了八倍。這一研究充分彰顯了合成數據在增強大模型邏輯推理能力方面的巨大潛力,為大模型的發展開辟了新的方向。(Suky)

模型 數據 研究 訓練 合成
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 二次元美女互摸隐私互扒 | aaaaa特级毛片 | 奇米成人| xnxx动漫| 草草草在线| 欧美国产日本精品一区二区三区 | 日日草视频 | 夫妻性生活一级黄色片 | 成3d漫二区三区四区 | 亚洲国产精品牛在线 | 四虎国产成人免费观看 | 国产日韩精品一区二区三区 | 青草国产| 国产美女极品免费视频 | 羞羞色男人的天堂伊人久久 | 91对白在线 | 国产成人性毛片aaww | 好逼365 | 男女精品视频 | 亚洲精品中文字幕久久久久久 | 精品福利视频一区二区三区 | 邪恶肉肉全彩色无遮盖 | 人人做人人爽人人爱 | 91麻豆精东果冻天美传媒老狼 | 欧美男男xxx激情做受 | 国产日韩高清一区二区三区 | 日本又大又硬又粗的视频 | 四虎精品在线视频 | 国产区综合另类亚洲欧美 | 校花在公车上被内射好舒服 | 高清欧美videossexo免费 | 日本在线观看视频 | 国产手机在线观看 | 久久这里只有精品无码3D | 情趣内衣在线观看 | 91久久国产综合精品 | 亚洲精品国产一区二区三区在 | 日韩欧免费一区二区三区 | 国产日韩欧美 | 欧美久久影院 | 男女性刺激爽爽免费视频 |