麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

為訓練 AI 模型 Claude,Anthropic 耗資數百萬美元購入并“銷毀”巨量圖書快訊

IT之家 2025-06-26 09:22
分享到:
導讀

將實體圖書拆解并掃描成數字文件,計劃使用近百萬本公版書籍訓練 AI,理由是圖書已由 Anthropic 合法購買、掃描后即刻銷毀。

6 月 26 日消息,據外媒 Ars Technica 今日報道,當地時間周一公開的法庭文件披露,人工智能公司 Anthropic 曾斥資數百萬美元,將實體圖書拆解并掃描成數字文件,用于訓練類似 ChatGPT 的 AI 助手 Claude。為了獲取訓練數據,公司將大量圖書拆除裝訂、掃描進系統,隨后直接丟棄原件。

判決書長達 32 頁,披露了 Anthropic 在 2024 年 2 月雇傭 Tom Turvey 的經過。Turvey 曾負責 Google Books 項目的合作事務,公司委托他“獲取全世界的圖書”。這一戰略性人事安排,顯然是希望復制谷歌曾被法院認定為合理使用的圖書數字化模式。

最終,法官 William Alsup 裁定,該掃描方式構成合理使用,理由是圖書已由 Anthropic 合法購買、掃描后即刻銷毀,且數字文件僅限內部使用,未向外傳播。他認為這類轉換相當于“節省空間”的數字化轉化,具有合理使用中的“轉化性”特征。如果公司一開始就遵守這一路徑,或許已樹立 AI 合理使用的首個判例,但早期的盜版行為削弱了其合法性。

核心原因其實很簡單:AI 訓練需要海量優質文本。為了構建大語言模型,研究人員需將億萬詞語輸入神經網絡,反復訓練模型,建立詞語與概念之間的關系。

訓練數據的質量直接影響模型輸出的準確性。相比網絡評論等雜亂信息,編輯過的書籍和文章能顯著提升 AI 的語言能力。

AI 公司急需出版內容,但通常不愿耗費時間談授權。美國的“首次銷售原則”提供了法律空間:買下實體書之后,使用者可以自行處理。這就讓購買圖書成為一種合法的“繞道方案”。

和許多同行一樣,Anthropic 最初選擇了繞過版權的捷徑。從法庭材料獲悉,為了繞開冗長復雜的授權流程,CEO 阿莫代伊曾主張使用盜版電子書。但到了 2024 年,出于法律考慮,公司開始尋求更安全的替代方案。

收購二手書成為理想選擇:不必談授權,又能獲得質量上乘的訓練文本。為了加快數字化進程,Anthropic 采用“破壞式掃描”,大量購入圖書,拆封、裁剪、整批掃描為機器可讀的 PDF 文件,完成后紙本全部廢棄。整個流程耗資數百萬美元。

該公司的購買對象大多是零售渠道的普通舊書。但事實上,非破壞性掃描技術早已成熟。比如 Internet Archive 就開發出可保留原書的數字化手段。本月早些時候,OpenAI 和微軟也宣布與哈佛大學圖書館合作,計劃使用近百萬本公版書籍訓練 AI,這些書籍在被數字化的同時依舊妥善保存。(清源)

公司 使用 掃描 訓練 圖書
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 精品国产理论在线观看不卡 | 大色综合| 国产成人综合手机在线播放 | 免费99精品国产自在现线 | 啪啪无尽3d动漫漫画免费网站 | 亚洲精品久久久久久婷婷 | 日日摸日日碰夜夜爽97纠 | 视频在线网站 | 欧美日韩国内 | 网友自拍咪咪爱 | 欧美成人免费观看的 | 三级黄片毛片 | 大香人蕉免费视频75 | 蜜桃破解版免费看nba | 亚洲mm色国产网站 | 美女沟厕撒尿全过程高清图片 | 网红刘婷hd国产高清 | 亚洲乱码一二三四五六区 | 亚洲AV国产福利精品在现观看 | 青草视频网站在线观看 | 久久99热在线观看7 久久99精品涩AV毛片观看 | 国产成人免费在线视频 | 爱福利视频一区 | 无码毛片内射白浆视频 | 欧美日韩一区二区中文字幕视频 | 明星ai人脸替换造梦在线播放 | 操碰97| 亚洲国产在线2o20 | 欧美视频在线播放观看免费福利资源 | 免费看打屁股视频的软件 | 果冻传媒九一制片厂网站 | 热剧库| 妹妹骑上来蹭着蹭着就射了 | 亚洲精品午夜久久aaa级久久久 | 精品亚洲综合在线第一区 | 国内精品国语自产拍在线观看55 | 蜜桃视频在线观看www | 香港三级系列在线播放 | 小小水蜜桃免费影院 | 国产成人精品免费2021 | 国产日本久久久久久久久婷婷 |