阿法元完爆阿法狗的啟示,人類應該向AI學習三堂課觀點
人工智能引發的奇跡恐怕早就不再是新聞了,這熱潮當然是在去年三月李世乭與AlphaGo(阿法狗)的對弈開始廣為世人知道。前天(10月19日),一篇Nature重磅論文“Mastering the game of Go withou…
引子
人工智能引發的奇跡恐怕早就不再是新聞了,這熱潮當然是在去年三月李世乭與AlphaGo(阿法狗)的對弈開始廣為世人知道。前天(10月19日),一篇Nature重磅論文“Mastering the game of Go without human knowledge”引發國內廣泛熱議,人工智能再次刷新人們的認識。
新一代的AlphaGo Zero,被翻譯為阿法元,不依賴于任何人類的棋譜,不參考人類任何先驗知識,完全靠自己強化學習(reinforcement learning)和參悟,它花三天時間就可以自己左右互博490萬棋局。阿法元棋藝增長遠超阿法狗,以100:0,百戰百勝。此前,阿法狗曾花了幾個月時間,學習人類三千萬棋局,才打敗人類。
阿法元不再被人類認知所局限,能夠發現新知識,開發新策略,它讓深度學習用于復雜決策更加方便可行。美國杜克大學人工智能專家陳怡然說:我覺得最有趣的是證明了人類經驗由于樣本空間大小的限制,往往都收斂于局部而不自知(或無法發現),機器學習可以突破這個限制。
無怪乎紐約客最近的封面文章《人類未來只能給機器人打下手》,并配了一幅人類向機器人乞討的場景的圖片。
這篇文章,就著重說一下,人類要向人工智能學習的三堂課。
深度學習
事實上,帶動這波人工智能背后的關鍵技術——深度學習(deep learning),早在2012年就開始在各種國際舞臺上發光發熱。在全球最知名的ImageNet機器視覺舞臺上,由深度學習之父Hinton領軍的團隊,首次參賽就讓原本停滯難以再進步的正確率大幅提升。(2010為72%,2011年為74%,2012年為85%)。不僅如此,這個數字進步的速度令人咋舌,在短短三年的時間內,微軟研究院用了高達152層的神經網絡讓正確率提升到95.06%,這個數字背后的意義在于,機器終于跨過了人類視覺的94.9%的壁壘。
從此之后,深度學習就一再創造奇跡,2017年在語音轉文字上,以95.51%的正確率贏過了人力速記員的單詞正確率94.9%(這數字的確跟視覺的壁壘是一樣的,人類為何常常卡在95%這關,值得研究)。DeepMind團隊則是在唇語領域上以超高的93.4%贏過了人類79.6%的水平。來自卡耐基梅隆大學操刀的Libratus,也在一對一不限注的德州撲克國際競賽中,擊敗所有的人類參賽者。
在看到這一波波的機器的勝績之后,大家首先會擔憂工作是否會不保,但是讓我們今天先把這件事放一邊,我們從算法原理(放心,后方無致人昏睡的數學)的角度來看看,到底是什么關鍵點造就了這些成果。身為深度學習的從業人員的我,有時覺得這些神經網絡不僅是單單模仿人類,在某些地方甚至是人類沒有做到位的部分,卻能在深度學習身上看到。
第一堂課:分享、共享
深度學習是從機器視覺領域開始展露頭角的,可是要知道,神經網絡(neural network)這項技術至今已經將近80年了。我依然記憶猶新的是我之前在教授機器學習的課程中,常常告訴學生神經網絡的權重又多又復雜、缺乏好的方式進行優化,所以耗費時間極長,沒事不建議使用……之類云云。但是為何現在更深更復雜的網絡卻能夠處理,除了現在是一個前所未有充滿計算力的時代,大家手上任何一臺智能手機的計算力其實都超過當初阿波羅號登月美國太空總署后臺的超級計算機,這些計算力當然也是助力之一。但是其實真正關鍵則是來自于“共享權重”的概念,分享正是人工智能要教人類的第一堂課。
拿人類的視覺來說,當一只貓不管出現在我們視野的哪個位置,他始終就是一只貓,不會變成任何其他的動物。這個現象意味著我們人類視網膜的1.2億個視桿細胞,其實都是用同一套規則在解讀世界的。所以現代的深度學習有別于以往神經網絡每個神經元各自學習的做法,而改為同深度神經元共享權重(在此各位可以把權重視為學習到的特征)。如此一來不但節省了數億倍的運算量,而且每個神經元都能學習到比過去各自學習時更完整的特征。
回頭看看人類,共享難道不是推動人類進步的一大助力嗎?現在人工智能風潮能夠比過往來的更強烈,其實跟現在所有主流分析框架都是開源有著密不可分的關系,對,全部都是開源且免費….。2008年,全球最大的面向開源軟件項目的托管平臺Github問世(我們常戲稱這是全球最大的同性交友平臺),帶動了程序代碼分享的風氣,而這些分享其實也是人類文明在近期能夠以前所未有的速度進步的主因。對許多人來說分享往往會變成濫好人的同義詞,我們先跳開那些共享單車、共享充電寶這些前景還不明確的商業模式,若是仔細解讀這兩年硅谷拿到高額投資的初創企業,有一半以上都有將技術開源。把視為公司核心競爭力的技術開源是否意味著公司貶值?但是事實上透過開源冷啟動所獲得的用戶基數,以及透過開源來提升代碼與產品的質量,這些新創公司從開源上得到的好處其實是遠超過敝帚自珍的。
第二堂課:專注
除了共享權重之外,另一個概念“感知域”也是深刻地影響機器視覺的效果。在以前的神經網絡中,我們總是企圖要讓每個神經元學習與全體所有神經元之間的關聯,這個想法造成計算量膨脹到人類無法解決,但是想想我們人在看東西時,總是把目光聚焦在一處,其他周遭的畫面就變得模糊,這個概念被用在了深度學習帶來了感知域的觀念,也就是說只需要專注在周遭的神經元就可以,其他較遠的都可以不用管他,專注,正是人工智能要教人類的第二堂課。
再來我們把角度從視覺換成聽覺,語音識別是大家最普遍使用的人工智能應用之一,從早期的語音轉文本,到現在更進一步的去理解句子中的語意,用的是我們稱之為遞歸神經網絡(RNN)的技術。它一樣有著共享權重的特性,而且它具備了本次的輸出就是下一次的輸入這樣的遞歸結構,很適合用來處理本質就是序列的語音與語言。像是神經網絡翻譯技術就是廣為人知的,但是畢竟語言的本質比圖像抽象很多,所以早期深度學習處理語意這塊并不能得到很好的成果,這個問題一直到了一個新的技術觀念問世為止,那就是“注意力(attention)”。這個技術概念其實非常直接,當我們在翻譯一段英文時,通常是看完整句后,然后除了要翻譯的字詞之外,還會推敲一下上下文,有些字是特別重要的,會造成語意的極大差異,而有些字則是有或沒有都不至于造成嚴重的影響。評估這些特定范圍的字的影響力的機制就被稱為“注意力”。
人類世界也是這樣,就像是有些新創公司急著每種商業模式都想碰一碰鉆一鉆,但是往往只會落到徒勞無功的下場。唯有專注,不僅要在特定領域中做到最好,而且要具備強大的“注意力”機制,才能夠從千絲萬縷的信息中,找出真正值得全心投入的領域。
第三堂課:全局觀
人工智能要教人類的第三堂課是“全局觀”。還記得柯杰在人機大戰后談到AlphaGo說到,“感覺AlphaGo和去年判若兩人,當時覺得他的棋很接近人,現在感覺越來越像圍棋上帝……”。為何會讓人感到不像人而像神,而這中間的差別是什么,我認為巴菲特的名言在此分外貼切——“人們總是在該恐懼的時候貪婪,在該貪婪的時候恐懼”,我想這就是人性的一個很好的批注。說人工智能像神其實有點言過其實,但是若是說到讓人感受到神性的部分,恐怕在于人類總是會被當下的情勢、被自己心中的貪嗔癡所束縛而做出錯誤的決定,而機器卻能夠完全不被影響,只往最后目標前進。
在每個深度學習神經網絡中,我們都會給予它一個損失函數,神經網絡的任務就是要想辦法透過學習來讓損失降低。那如果兩個任務不同且損失不同的神經網絡銬在一起時(我們稱之為聯合學習),會發生甚么事。如果是人類的世界,恐怕兩個人都會著眼于自己的損失最小化,而做出錯誤的決定,最后導致雙輸。那深度學習呢?下面這張圖是我之前在處理這種聯合學習的截圖,當時看到這個景象其實整個人是深受感動的。神經網絡的做法是,它們可以一起接受短期的損失增加,甚至像圖中是短期損失高到嚇人,但是他們卻能攜手度過,一起邁向整體損失更低的新境界,在深度學習的眼中,只有全局目標,不會受短期損失影響。仔細想想人類的文明,多少資源都浪費在大家為了鞏固自己的短期利益,而造成全體眾人皆輸的慘境,有時想想也荒謬,在商業世界失去了的人性,反而能在人工智能身上找回來。
我不知道未來的世界會如何,我只知道現在是站在新的工業革命的起點,既然分享、專注、全局觀,能將沒用的神經網絡改頭換面,我相信人類也能再次進化,創造新的文明奇跡,更何況這些本來就是我們曾擁有但是丟失的初心……
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。