大模型侵權(quán)第一案,學(xué)而思或被起訴偷數(shù)據(jù)觀點(diǎn)
全社會都在關(guān)注各公司推出的大模型,但鮮少關(guān)注大模型背后的訓(xùn)練數(shù)據(jù)來自于哪,是否征得了數(shù)據(jù)版權(quán)方的授權(quán),以及是否付費(fèi)。
全社會都在關(guān)注各公司推出的大模型,但鮮少關(guān)注大模型背后的訓(xùn)練數(shù)據(jù)來自于哪,是否征得了數(shù)據(jù)版權(quán)方的授權(quán),以及是否付費(fèi)。
日前,北京筆神作文公司計(jì)劃起訴其多年的合作伙伴學(xué)而思,指其近期推出的數(shù)學(xué)大模型MathGPT和在學(xué)而思學(xué)習(xí)機(jī)上線的AI助手,在未經(jīng)其授權(quán)和許可情況下,爬取了海量數(shù)據(jù),要求學(xué)而思公開道歉、刪除數(shù)據(jù)資源,求償1元。
筆者通過筆神作文聯(lián)系上了與其保持有業(yè)務(wù)溝通的學(xué)而思相關(guān)負(fù)責(zé)人,發(fā)去求證信息,不過截至發(fā)稿,學(xué)而思方面未給予回復(fù)。
一夜之間,數(shù)百萬篇數(shù)據(jù)資源直接被爬
4月的一個周末,北京中關(guān)村筆神作文公司。
碼農(nóng)們都在家休息,辦公室里空蕩蕩。然而直至周一,歸來的程序員才發(fā)現(xiàn),公司的海量數(shù)據(jù),在周末這幾天被一群“天外來客”爬了個遍,總爬取數(shù)超過兩百萬次。
事后,筆神作文的創(chuàng)始人及CEO宋嘉偉經(jīng)過分析判斷,并直接向他猜測的爬取方詢問,才發(fā)現(xiàn)爬取者不是別人,正是與其保持有多年合作關(guān)系的學(xué)而思。
事件中的主角筆神作文,成立于2017年,是一個中小學(xué)生作文AI批改平臺和投稿社區(qū),隸屬于北京一筆兩劃科技有限公司。
創(chuàng)始人宋嘉偉是一位技術(shù)達(dá)人,也是一位愛好寫作的專業(yè)作家。經(jīng)過過去6年的創(chuàng)業(yè),筆神作文從以學(xué)生為主的用戶那里,收集及沉淀了海量的作文資源。
官方宣傳資料稱,“筆神作文每月會收到超過30萬篇作文投稿和超過40萬次的點(diǎn)贊評論。6年來,筆神作文積累了超過數(shù)百萬篇作文素材,月批改作文量超3萬篇。”
宋嘉偉說,這里面融入了團(tuán)隊(duì)創(chuàng)業(yè)的心血,以來一點(diǎn)一點(diǎn)積累起來的成果。
他至今記得,為了獲得作文素材的數(shù)據(jù),筆神作文用人工審核的方式、一篇一篇篩選投稿來的作文,通過打標(biāo)簽、分級、數(shù)據(jù)清洗(指發(fā)現(xiàn)及糾正數(shù)據(jù)文件中的錯誤)等,最終得以積累到目前的作文素材體量。
宋嘉偉認(rèn)為,正是這些優(yōu)質(zhì)的作文數(shù)據(jù)資源,成了“天外來客”眼中的目標(biāo)。
▲ 圖 | 學(xué)而思&筆神作文
筆神作文與學(xué)而思的合作要追溯到三年前。當(dāng)時筆神作文與學(xué)而思旗下的一款學(xué)習(xí)工具APP——題拍拍簽約合作,為其提供作文素材查詢服務(wù)。
官方資料顯示,題拍拍是一款免費(fèi)答題APP,于2020年3月上線,涵蓋全年級、全學(xué)科,為廣大用戶提供真人在線免費(fèi)答題服務(wù),專注于6-18歲中小學(xué)生課后學(xué)習(xí)場景。
根據(jù)雙方的合作合同,雙方協(xié)議筆神作文為題拍拍中的作文版塊、只提供用戶查詢服務(wù),且題拍拍不得將作文數(shù)據(jù)緩存本地以及機(jī)器學(xué)習(xí)訓(xùn)練。
合同中有這樣幾項(xiàng)條款,對筆神作文數(shù)據(jù)的使用用途,進(jìn)行了較為明確的規(guī)定。
1、作為第三方技術(shù)服務(wù)商的深圳市三體云聯(lián)網(wǎng)絡(luò)科技有限公司(即“三體云聯(lián)公司”,系學(xué)而思子公司),有義務(wù)保障北京一筆兩劃科技有限公司(即“一筆兩劃公司”)服務(wù)接口的安全性,應(yīng)經(jīng)一筆兩劃公司允許后、方可將合作接口內(nèi)容用于雙方約定好的平臺或產(chǎn)品中。
2、合同原文稱,三體云聯(lián)公司不得隨意泄漏、使用、傳播或緩存乙方服務(wù)接口中的作文范文及其相關(guān)內(nèi)容,否則造成的損失將由甲方全額賠付。
3、合同原文強(qiáng)調(diào),三體云聯(lián)公司不得在未經(jīng)一筆兩劃公司允許的情況下用于任何其它用途,包括級存、存儲、作為語料進(jìn)行計(jì)算、訓(xùn)練等。
基于雙方的合作精神,筆神作文介紹,自己的技術(shù)團(tuán)隊(duì)設(shè)計(jì)了完備的安全機(jī)制,正常情況下,可以防止黑客們進(jìn)行爬蟲攻擊。而只有提供給合作伙伴學(xué)而思的接口是不設(shè)防的。
爬取事件被發(fā)掘后,宋嘉偉也曾一度懷疑是不是有黑客利用了這個接口盜取數(shù)據(jù),所以專門與學(xué)而思經(jīng)常對接的程序員求證。
然而令他出乎意料的是,對方直接承認(rèn),筆神作文數(shù)據(jù)后臺被高頻調(diào)用、確實(shí)來自學(xué)而思方算法組的調(diào)用操作。
通常來說,算法組的工作之一,就是訓(xùn)練人工智能大模型。果然,在數(shù)據(jù)調(diào)用異常不到兩周后,大量關(guān)于學(xué)而思推出數(shù)學(xué)大模型的新聞開始密集出現(xiàn)。5月初,學(xué)而思宣布將推出MathGPT,以及其中即將上線的AI助手涉及的功能。
宋嘉偉團(tuán)隊(duì)于是高度懷疑,學(xué)而思的這項(xiàng)產(chǎn)品已將其多年積攢的數(shù)據(jù)化為己用,關(guān)鍵是未經(jīng)過筆神作文的同意。
尤其AI助手被介紹為是“涵蓋作文助手、口語助手、閱讀助手、數(shù)學(xué)助手等功能”。宋嘉偉稱,學(xué)而思自己并沒有海量作文素材數(shù)據(jù),否則此前雙方的合作也不會開始。
苦心經(jīng)營多年的數(shù)據(jù)在一個周末被擅自爬取,“團(tuán)隊(duì)的苦心經(jīng)營為他人的大模型做了嫁衣。”宋嘉偉表示。
事件發(fā)生之后,宋嘉偉多次向?qū)W而思相關(guān)方詢問事宜,包括發(fā)出律師函,卻始終沒有得到實(shí)質(zhì)性答復(fù)。
目前一筆兩劃公司已經(jīng)搜集證據(jù),準(zhǔn)備走司法程序來維權(quán)。其訴求有三:
要求公開致歉、刪除非法獲取的數(shù)據(jù)并中止應(yīng)用、求償1元。
對于筆神作文的訴求,筆者通過筆神作文聯(lián)系到了學(xué)而思方面相關(guān)負(fù)責(zé)人,對方在通過微信驗(yàn)證、并看到相關(guān)提問后,直接拉黑了聯(lián)絡(luò)微信。未針對筆神作文的訴求給于回應(yīng)。
海外類似糾紛頻發(fā)
筆神作文與學(xué)而思題拍拍之間發(fā)生的糾紛,揭開了大模型熱潮下一個容易被忽視的角落。
大模型想變得智能,就需要對海量數(shù)據(jù)進(jìn)行深度學(xué)習(xí)。然而海量數(shù)據(jù)來自哪,是否被版權(quán)方授權(quán),是否有需要付費(fèi),目前這是一個模糊地帶。
《真故研究室》搜集了國內(nèi)過往諸多案例。圍繞一般版權(quán)的訴訟案例比較多,鮮見圍繞大模型數(shù)據(jù)版權(quán)而展開的訴訟。但在海外,類似數(shù)據(jù)版權(quán)糾紛已經(jīng)顯示出頻發(fā)態(tài)勢。
先說結(jié)論,從海外數(shù)據(jù)版權(quán)糾紛來看,侵權(quán)方與被侵權(quán)方之間未存在共識。這導(dǎo)致數(shù)據(jù)版權(quán)保護(hù)起來還有難度。
今年年初,被稱為美國最大的商業(yè)圖庫提供商Getty Images,在英國起訴了Stability AI。這是英國首起涉及人工智能的重大知識產(chǎn)權(quán)糾紛。
Stability AI公司,即Stable Diffusion這個AI圖像生成模型的創(chuàng)建者。
Getty Images認(rèn)定Stability AI非法復(fù)制和處理了Getty Images擁有或代表的受版權(quán)保護(hù)的圖像以及相關(guān)元數(shù)據(jù),涉及數(shù)以百萬計(jì)數(shù)據(jù)。而這些行為并未獲得Getty Images任何授權(quán)許可,在給Stability AI的商業(yè)利益帶來收益的同時,侵害了內(nèi)容創(chuàng)作者的權(quán)益。
截至目前,Stability AI尚未就這個申訴作出公開評論,但其首席執(zhí)行官Emad Mostaque在推特中表示,“我認(rèn)為他們(指自己)都是通過合乎規(guī)范、道德和法律標(biāo)準(zhǔn)的方式獲得并使用的”。
▲ 圖 | AI正在迅速學(xué)習(xí)數(shù)據(jù),拓展更多用途
這種情況不算個例。
今年4月,美國艾倫人工智能研究院(2014年成立,最初定位為AI技術(shù)自研平臺)等發(fā)布了一份針對谷歌C4數(shù)據(jù)集的調(diào)查結(jié)果。
調(diào)查拆解了谷歌的C4數(shù)據(jù)集,它是很多知名英語AI大模型的訓(xùn)練材料,比如谷歌的T5(2019年10月發(fā)布)和Facebook的LLaMA(2023年2月發(fā)布)。
拆解的目的是為研究C4數(shù)據(jù)集里究竟包含哪些數(shù)據(jù)材料來源。研究認(rèn)為,這關(guān)系許多英語AI大模型所使用數(shù)據(jù)的正當(dāng)性,比如是否有侵權(quán),以及是否存在“臟數(shù)據(jù)”(比如本身就是盜版的數(shù)據(jù))。
調(diào)查結(jié)果顯示,C4數(shù)據(jù)集中實(shí)際包含的大約1000萬個網(wǎng)站數(shù)據(jù)發(fā)現(xiàn),其中有很大一部分是來路不正的數(shù)據(jù)源,包括盜版電子書網(wǎng)站b-ok.org等。
而一些諸如創(chuàng)意產(chǎn)品眾籌網(wǎng)站、個人博客也包含其中且排名靠前,意味著這類數(shù)據(jù)被使用的權(quán)重越高。問題的關(guān)鍵是,這些數(shù)據(jù)版權(quán)方可能未獲得任何授權(quán)或報酬。
作為頭部人工智能大模型的OpenAI,顯然也知道行業(yè)存在的這些問題,但沒有直接提出解決措施。
今年5月16日,OpenAI首席執(zhí)行官山姆·奧特曼曾在一個聽證會場合表示,他呼吁主管部門對生成式人工智能進(jìn)行監(jiān)管和干預(yù)。然而,對于作品被用于人工智能生成的歌曲、文章,或其他作品的內(nèi)容創(chuàng)作者如何得到補(bǔ)償?shù)葐栴}時,奧特曼并未給出明確的回答。
▲ 圖 | OpenAI首席執(zhí)行官山姆·奧特曼
從上述案例可以看到,數(shù)據(jù)版權(quán)方被侵權(quán),在許多大模型中是一種已發(fā)生的事實(shí)。版權(quán)方與使用方在相關(guān)問題上存有分歧,并未有達(dá)成一致的解決措施。
圍繞數(shù)據(jù)侵權(quán)的治理已在路上
從海內(nèi)外數(shù)據(jù)版權(quán)糾紛來看,這是否就意味著數(shù)據(jù)版權(quán)方的利益,就難以得到保護(hù)呢。
還是先說結(jié)論。目前,我國《著作權(quán)法》對數(shù)據(jù)版權(quán)的保護(hù)存在相關(guān)規(guī)定,可被侵權(quán)者使用。其次,包括中國國家互聯(lián)網(wǎng)信息辦公室在內(nèi)的相關(guān)單位、以及行業(yè)組織,已經(jīng)行動起來,準(zhǔn)備出臺措施、或發(fā)出倡議,呼吁保護(hù)數(shù)據(jù)版權(quán)方的利益,全社會的共識正在凝聚中。
在我國目前現(xiàn)行的《著作權(quán)法》框架下,GPT訓(xùn)練數(shù)據(jù)使用過程的不同行為均可能存在著作權(quán)侵權(quán)風(fēng)險。
《著作權(quán)法》中規(guī)定了12種合理使用情形,包括為個人學(xué)習(xí)、研究或者欣賞;為介紹、評論某一作品或說明某一問題,在作品中適當(dāng)引用他人已經(jīng)發(fā)表的作品;為報道時事新聞,在各類媒體中不可避免地再現(xiàn)或者引用已經(jīng)發(fā)表的作品;為學(xué)校課堂教學(xué)或者科學(xué)研究等。
而ChatGPT對訓(xùn)練數(shù)據(jù)的使用,明顯并非為“個人學(xué)習(xí)”“教學(xué)或科研”“公共文化機(jī)構(gòu)”所使用,本質(zhì)上屬商業(yè)性使用,因此涉嫌侵權(quán)方很難直接援引該條為自己侵權(quán)抗辯。
針對大模型帶來的新情況,海內(nèi)外也在出臺一系列政策文件,進(jìn)一步規(guī)范。
4月11日,中國國家互聯(lián)網(wǎng)信息辦公室起草了《生成式人工智能服務(wù)管理辦法(征求意見稿)》,以期促進(jìn)生成式人工智能技術(shù)的健康發(fā)展和規(guī)范應(yīng)用。當(dāng)中就有一條明確指出:用于生成式人工智能產(chǎn)品的預(yù)訓(xùn)練、優(yōu)化訓(xùn)練數(shù)據(jù),應(yīng)滿足不含有侵犯知識產(chǎn)權(quán)的內(nèi)容。
▲ 圖 | 大模型發(fā)展,版權(quán)保護(hù)也不能置之不理
國際社會也正在加快相關(guān)討論。
4月30日,世界發(fā)達(dá)國家的技術(shù)部長在日本發(fā)布了共同聲明,指出需要促進(jìn)“負(fù)責(zé)任”地使用ChatGPT等人工智能工具。其中就包括治理、如何保障包括版權(quán)在內(nèi)的知識產(chǎn)權(quán)、促進(jìn)透明度、處理虛假信息,以及如何負(fù)責(zé)任地利用這些技術(shù)等議題。
目前,國內(nèi)的相關(guān)行業(yè)已經(jīng)開始有相關(guān)動作。
近日,中文在線(300364)、同方知網(wǎng)、中國工人出版社等26家單位共同發(fā)布了國內(nèi)首份有關(guān)AIGC訓(xùn)練數(shù)據(jù)版權(quán)的倡議書。
作為業(yè)內(nèi)首份AIGC數(shù)據(jù)版權(quán)倡議書,業(yè)內(nèi)認(rèn)為其最大的價值在于兩點(diǎn):一是喚醒了國內(nèi)AI企業(yè)關(guān)于大模型訓(xùn)練數(shù)據(jù)的版權(quán)意識;二是為AIGC研發(fā)者規(guī)避版權(quán)爭議提供了方向性指引。
有關(guān)方面指出,合理使用正版數(shù)據(jù)的倡議被提出,是對AIGC研發(fā)主體的警示和啟發(fā)。
回到最開始的筆神作文與學(xué)而思糾紛,關(guān)注這個案件進(jìn)展的意義在于,它關(guān)系著所有手上持有優(yōu)質(zhì)數(shù)據(jù)版權(quán)公司的切身利益。而大模型行業(yè)要健康發(fā)展,不能對存在的問題假裝閉一只眼睛就能蒙混過關(guān)。
宋嘉偉回憶,原本筆神作文與題拍拍合作的過程還算愉快,哪怕中途遇到行業(yè)調(diào)整,似乎也沒影響雙方的合作。
雙減打擊之下,教培行業(yè)受政策調(diào)整,業(yè)務(wù)受到了影響。宋嘉偉說,在題拍拍效益不好、規(guī)模變小之時,筆神也將合同中約定的服務(wù)收費(fèi)調(diào)整到原本的三分之一,意在攜手度過教培寒冬。
然而寒冬還沒挺過,令宋嘉偉意外的是,感覺自己遭到了合作伙伴的背刺。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。