麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

反爬蟲(chóng)戰(zhàn)爭(zhēng)進(jìn)行了十八年,但一切才剛剛開(kāi)始互聯(lián)網(wǎng)+

腦極體 2018-08-01 10:19
分享到:
導(dǎo)讀

當(dāng)AI時(shí)代遇上AI爬蟲(chóng), 戰(zhàn)爭(zhēng)才剛剛開(kāi)始

在一大堆技術(shù)術(shù)語(yǔ)里,最為被普通人所熟知的大概就是“爬蟲(chóng)”了。其實(shí)爬蟲(chóng)這個(gè)名字就已經(jīng)特別好地表現(xiàn)出了這項(xiàng)技術(shù)的作用——像密密麻麻的蟲(chóng)子一樣分布在網(wǎng)絡(luò)上,爬行至每一個(gè)角落獲取數(shù)據(jù);也一定程度上表達(dá)了人們對(duì)這項(xiàng)技術(shù)的情感傾向——蟲(chóng)子或許無(wú)害,但總是不受歡迎的。


有關(guān)爬蟲(chóng)的功能、益處或危害,此前已經(jīng)有過(guò)很多討論。因?yàn)榕老x(chóng)技術(shù)造成的大量IP訪問(wèn)網(wǎng)站侵占帶寬資源、以及用戶隱私和知識(shí)產(chǎn)權(quán)等危害,很多互聯(lián)網(wǎng)企業(yè)都會(huì)花大力氣進(jìn)行“反爬蟲(chóng)”。


相比爬蟲(chóng)技術(shù)本身,反爬蟲(chóng)其實(shí)更加復(fù)雜,發(fā)展歷程也更加有趣。


我們?nèi)绾畏磁老x(chóng)?

先禮后兵、再對(duì)簿公堂


幾乎是和爬蟲(chóng)技術(shù)誕生的同一時(shí)刻,反爬蟲(chóng)技術(shù)也誕生了。在90年代開(kāi)始有搜索引擎網(wǎng)站利用爬蟲(chóng)技術(shù)抓取網(wǎng)站時(shí),一些搜索引擎從業(yè)者和網(wǎng)站站長(zhǎng)通過(guò)郵件討論定下了一項(xiàng)“君子協(xié)議”—— robots.txt。即網(wǎng)站有權(quán)規(guī)定網(wǎng)站中哪些內(nèi)容可以被爬蟲(chóng)抓取,哪些內(nèi)容不可以被爬蟲(chóng)抓取。這樣既可以保護(hù)隱私和敏感信息,又可以被搜索引擎收錄、增加流量。


爬蟲(chóng)技術(shù)剛剛誕生時(shí)我們還處于上古時(shí)代,互聯(lián)網(wǎng)是一片賢者云集的樂(lè)土,大多數(shù)從業(yè)者都會(huì)默守這一協(xié)定,畢竟那時(shí)候信息和數(shù)據(jù)都沒(méi)什么油水可撈。但很快互聯(lián)網(wǎng)上開(kāi)始充斥著商品信息、機(jī)票價(jià)格、個(gè)人隱私……在利益的誘惑下,自然有些人會(huì)開(kāi)始違法爬蟲(chóng)協(xié)議了。


當(dāng)君子協(xié)議失效,我們開(kāi)始改用技術(shù)手段阻攔爬蟲(chóng)的入侵。比如從訪問(wèn)數(shù)量上發(fā)現(xiàn)爬蟲(chóng),當(dāng)我們?cè)谀骋痪W(wǎng)站瀏覽過(guò)快時(shí),系統(tǒng)往往會(huì)要求輸入驗(yàn)證碼,就是因?yàn)檫@種快速瀏覽的行為很接近爬蟲(chóng)。或者是不定期改變HTML標(biāo)簽,使之無(wú)法與Web排序匹配來(lái)限制爬蟲(chóng)。


但是即便如此,我們也沒(méi)有任何方法可以禁止爬蟲(chóng)在網(wǎng)站中出入,只能加大爬蟲(chóng)的訪問(wèn)難度。如果網(wǎng)站可以供給人類(lèi)訪問(wèn),就一定也可以被爬蟲(chóng)訪問(wèn)。而且如果從底層完全組織爬蟲(chóng)抓取,也很可能讓網(wǎng)站無(wú)法被搜索引擎收錄。


所以,在所有的先禮后兵都對(duì)爬蟲(chóng)失效時(shí)。最后反爬蟲(chóng)的手段只有最后一項(xiàng)——對(duì)簿公堂。


兩場(chǎng)官司和十七年,

爬蟲(chóng)沒(méi)變,我們變了


歷史上第一樁關(guān)于爬蟲(chóng)的官司誕生在2000年,eBay將一家聚合價(jià)格信息的比價(jià)網(wǎng)站BE告上了法庭,eBay聲稱(chēng)自己已經(jīng)將哪些信息不能抓取寫(xiě)進(jìn)了爬蟲(chóng)協(xié)議中,但BE違反了這一協(xié)議。但BE認(rèn)為eBay上的內(nèi)容屬于用戶集體貢獻(xiàn)而不歸用戶所有,爬蟲(chóng)協(xié)議不能用作法律參考。


最后經(jīng)過(guò)業(yè)內(nèi)反復(fù)討論和法庭上的幾輪唇槍舌戰(zhàn),最終以eBay勝訴告終,也開(kāi)了用爬蟲(chóng)協(xié)議作為主要參考的先河。


但這也引起了很多人的不滿,難道爬蟲(chóng)能不能爬、怎么爬、誰(shuí)的爬蟲(chóng)能爬,都得由被爬的公司決定嗎?掌握了這種權(quán)力時(shí),商業(yè)世界的唯利和自私立刻暴露無(wú)遺。


有一個(gè)說(shuō)法是,互聯(lián)網(wǎng)上50%的流量都是爬蟲(chóng)創(chuàng)造的。這個(gè)說(shuō)法雖然夸張了點(diǎn),但也體現(xiàn)出了爬蟲(chóng)的無(wú)處不在。爬蟲(chóng)之所以無(wú)處不在,是因?yàn)榕老x(chóng)可以為互聯(lián)網(wǎng)企業(yè)帶來(lái)收益。


就拿電商網(wǎng)站來(lái)說(shuō),很多電商網(wǎng)站是愿意被比價(jià)網(wǎng)站或者其他購(gòu)物信息網(wǎng)站爬取信息的,因?yàn)檫@樣能夠給他們的商品帶來(lái)更多流量。但他們不愿意被其他電商網(wǎng)站獲取價(jià)格信息和商品描述,因?yàn)閾?dān)心其他電商網(wǎng)站惡意比價(jià)或進(jìn)行抄襲。同時(shí)他們又經(jīng)常去爬其他電商網(wǎng)站的數(shù)據(jù),希望能夠看到別人的價(jià)格。


這種糾結(jié)又復(fù)雜的心情就像學(xué)霸間的競(jìng)爭(zhēng),學(xué)霸可以給學(xué)渣抄筆記,因?yàn)橹缹W(xué)渣再怎么努力也就是六七十分的水平,但學(xué)霸對(duì)其他學(xué)霸一定會(huì)嚴(yán)防死守,因?yàn)橹挥袑W(xué)霸和學(xué)霸之間才有真正的競(jìng)爭(zhēng)。所以像京東和淘寶這樣的“頂級(jí)學(xué)霸”都會(huì)在協(xié)議中寫(xiě)清楚,禁止對(duì)方爬取數(shù)據(jù)。當(dāng)然,至于雙方是否遵守這一君子協(xié)定就很難說(shuō)了。


同時(shí)也有一些網(wǎng)站,一開(kāi)始會(huì)默許其他網(wǎng)站爬取數(shù)據(jù),一段時(shí)間過(guò)后卻又會(huì)將爬取數(shù)據(jù)的網(wǎng)站告上法庭。最典型的例子就是領(lǐng)英,領(lǐng)英在2017年曾經(jīng)將一家名為HiQ的數(shù)據(jù)分析企業(yè)告上法庭,原因是認(rèn)定這家企業(yè)抓取領(lǐng)英用戶的就職狀態(tài)信息,提供給另外兩家利用機(jī)器學(xué)習(xí)分析員工跳槽傾向和職業(yè)技能的企業(yè)。


結(jié)果卻是即使打著保護(hù)用戶隱私的旗號(hào),領(lǐng)英仍然敗訴并且被聯(lián)邦法庭要求開(kāi)放數(shù)據(jù)接口。原因是HiQ已經(jīng)這樣爬取領(lǐng)英的數(shù)據(jù)長(zhǎng)達(dá)五年,領(lǐng)英一直知情并且曾經(jīng)去參加過(guò)HiQ組織的論壇峰會(huì)。如今領(lǐng)英自己開(kāi)展了和HiQ類(lèi)似的業(yè)務(wù),就要斷了HiQ的生路。


從2000年到2017年,之所以會(huì)有這兩場(chǎng)結(jié)局截然不同的官司,是因?yàn)槲覀冎圃炫老x(chóng)和反爬蟲(chóng)的初衷都發(fā)生了變化。從一開(kāi)始的獲取信息和保護(hù)隱私,變成了如今的獲取商業(yè)利益和反制對(duì)手


爬蟲(chóng)制造者說(shuō):

道德是反爬蟲(chóng)的最好方法?


就著這個(gè)話題,我們還和兩位碼Python的程序員朋友聊了聊。


要知道程序員們是一種非常具有個(gè)性的生物,很難在問(wèn)題中達(dá)成一致,尤其是在“什么才是最好的語(yǔ)言”、“早期的錘子手機(jī)是不是垃圾”這樣的問(wèn)題上。但在反爬蟲(chóng)的問(wèn)題上,程序員們似乎呈現(xiàn)出了空前的一致。


一位就職于小型OTA的程序員表示,公司在剛剛起步時(shí)經(jīng)常會(huì)要求他們爬取旅游網(wǎng)站的旅游路線,這時(shí)他們通常會(huì)選擇中青旅遨游網(wǎng)這樣傳統(tǒng)企業(yè)基因更濃厚的網(wǎng)站,因?yàn)樗麄儭胺磁老x(chóng)能力幾乎為0”。


而另一位大廠程序員表示,公司通常會(huì)把爬取數(shù)據(jù)這樣的臟活累活外包出去,而在反爬蟲(chóng)時(shí),如果數(shù)據(jù)爬取方技術(shù)足夠好,不給服務(wù)器帶來(lái)過(guò)分的帶寬壓力,在滿足了KPI前提下他們甚至?xí)犚恢谎坶]一只眼。


同時(shí)雙方都承認(rèn),有時(shí)候會(huì)自己出于興趣制作一些小爬蟲(chóng)程序,方便獲取一些數(shù)據(jù)。


在提到爬蟲(chóng)技術(shù)的合法性時(shí),他們告訴我,法律很難阻止爬蟲(chóng)技術(shù)。除非在競(jìng)品之間、涉及到對(duì)用戶原創(chuàng)內(nèi)容的批量搬運(yùn),類(lèi)似之前360快視頻批量搬運(yùn)B站視頻、以及近期出現(xiàn)的大眾點(diǎn)評(píng)批量搬運(yùn)小紅書(shū)內(nèi)容等等。至于那些爬取他人數(shù)據(jù)用作分析的,一方面難以取證確定對(duì)象,另一方面整個(gè)訴訟過(guò)程會(huì)非常漫長(zhǎng),企業(yè)很難清楚的展現(xiàn)出自己哪里受了損失,通常是以“不正當(dāng)競(jìng)爭(zhēng)”這樣的萬(wàn)金油控訴對(duì)方。


當(dāng)我們問(wèn)到他們,從技術(shù)角度有沒(méi)有什么好的反爬蟲(chóng)手段時(shí),他們告訴我最好的反爬蟲(chóng)手段并非技術(shù)也并非法律,而是公關(guān)——帶上截圖找?guī)讉€(gè)媒體爆料一下,帶點(diǎn)侵權(quán)、入侵?jǐn)?shù)據(jù)庫(kù)、隱私信息方面的影射,就可以立刻從道德的制高點(diǎn)搞臭對(duì)方,讓人不會(huì)注意到你司的反爬蟲(chóng)技術(shù)不到位。如果對(duì)方是上市公司,效果更佳。


當(dāng)AI時(shí)代遇上AI爬蟲(chóng),

戰(zhàn)爭(zhēng)才剛剛開(kāi)始


“道德反爬蟲(chóng)”雖然只是笑談,但一定程度上表示出了企業(yè)技術(shù)人員對(duì)爬蟲(chóng)的無(wú)可奈何。但可以預(yù)見(jiàn)的是,隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)應(yīng)用越來(lái)越廣,對(duì)爬蟲(chóng)睜一只眼閉一只眼、與爬蟲(chóng)和平共處的時(shí)代很快就要過(guò)去了。


最主要的問(wèn)題是,爬蟲(chóng)的出現(xiàn)會(huì)極大地增加數(shù)據(jù)分析難度。


當(dāng)數(shù)據(jù)分析企業(yè)利用爬蟲(chóng)獲取數(shù)據(jù)進(jìn)行分析時(shí),大量爬蟲(chóng)的存在正在讓這些數(shù)據(jù)失實(shí)。文章瀏覽量的失實(shí)讓我們誤判人們對(duì)新聞事實(shí)的關(guān)注程度、爬蟲(chóng)衍生出的虛擬IP需要在數(shù)據(jù)清洗時(shí)剔除……技術(shù)越高超的爬蟲(chóng),在行為模式上就越接近真人,也就更加增加數(shù)據(jù)分析時(shí)的難度。久而久之,那些我們以為從人類(lèi)行為中尋找規(guī)律的算法,反而尋找到的是機(jī)器人的行為規(guī)律。


同時(shí)爬蟲(chóng)帶來(lái)的流量波動(dòng)也會(huì)讓機(jī)器學(xué)習(xí)算法產(chǎn)生誤判。


最典型的例子是機(jī)票的動(dòng)態(tài)定價(jià),網(wǎng)站會(huì)結(jié)合當(dāng)下瀏覽量判定機(jī)票的搶手程度并且調(diào)整價(jià)格。這時(shí)如果有大量爬蟲(chóng)在瀏覽網(wǎng)站,算法就會(huì)給出和實(shí)際情況并不符合的定價(jià),也損傷了消費(fèi)者購(gòu)買(mǎi)到廉價(jià)產(chǎn)品的權(quán)益。


甚至一些數(shù)據(jù)分析企業(yè)還打出了“AI爬蟲(chóng)”的招牌,讓爬蟲(chóng)腳本的行為模式更加接普通用戶,讓被爬的企業(yè)難以發(fā)掘,甚至還會(huì)利用圖像識(shí)別技術(shù)破解網(wǎng)站用作攔截的驗(yàn)證碼。


在這種情況下,網(wǎng)站分辨人與機(jī)器人就變得更加困難也更加重要。很多網(wǎng)站也開(kāi)始利用機(jī)器學(xué)習(xí)技術(shù)反制AI爬蟲(chóng),比如為圖形驗(yàn)證碼動(dòng)態(tài)打碼應(yīng)對(duì)圖像識(shí)別。同時(shí)現(xiàn)在PC和移動(dòng)終端的硬件技術(shù)發(fā)展,也讓生物識(shí)別這種更復(fù)雜的驗(yàn)證手段有可能加入戰(zhàn)斗。雙方正在站在同一水平線上,利用技術(shù)互相斗法。


可以說(shuō)爬蟲(chóng)技術(shù)和反爬蟲(chóng)技術(shù)之間斗爭(zhēng)了十幾年,可真正的“戰(zhàn)爭(zhēng)”卻從現(xiàn)在才剛剛開(kāi)始。在徹底制服惡意爬蟲(chóng)之前,對(duì)于一切大數(shù)據(jù)、精準(zhǔn)預(yù)測(cè)之類(lèi)的“吹噓”,我們最好保持著三分懷疑。

爬蟲(chóng) 技術(shù) 網(wǎng)站 數(shù)據(jù) 企業(yè)
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為T(mén)MT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。


專(zhuān)題報(bào)道

主站蜘蛛池模板: 亚洲精品久久久久福利网站 | 国产精品资源站 | 精品伊人 | 亚洲一级片在线播放 | 精品精品国产自在现拍 | 午夜国产在线 | 久久精品国产只有精品 | 国产在线91 | 欧美专区亚洲 | 欧美日韩视频一区三区二区 | 免费国产影视观看网站入口 | 国产高清在线播放刘婷91 | 日本ww视频 | 51国产| 国内精品自产拍在线观看91 | 青青草99久久精品国产综合 | 国产成人精品一区二区仙踪林 | 非洲一级毛片又粗又长aaaa | 欧美成人第一页 | 国产精彩视频 | 婷婷综合缴情亚洲五月伊 | 美女私人影院 | 东北美女野外bbwbbw免费 | 国产午夜精品久久理论片 | 天天操天天舔 | 国产亚洲欧美成人久久片 | 很黄的孕妇a级黄毛片 | 欧美一区二区三区精品 | 久久久久久免费高清电影 | 3d蒂法受辱在线播放 | 亚洲天堂2015 | 精品国产线拍大陆久久尤物 | 跪在老师脚下吃丝袜脚 | 91亚洲一区二区在线观看不卡 | h日本漫画全彩在线观看 | 亚洲天堂视频在线免费观看 | 亚洲精品日韩专区在线观看 | 天堂69亚洲精品中文字幕 | wwwav视频| 欧美人在线一区二区三区 | 干露露视频 性感写真 |