麻豆国内精品欧美在线-麻豆国内精品久久久久久-麻豆国产在线观看一区二区-麻豆国产在线观看免费-麻豆国产原创-麻豆国产一区二区在线观看

圍棋與星際爭霸誰更難對付?AlphaGo Zero創造者說…金融

機器之能 2017-10-20 20:06
分享到:
導讀

從技術上講,我認為兩者最大的區別之一在于圍棋是一種完美信息博弈,而星際爭霸因為有戰爭迷霧,屬于不完美信息博弈。

圍棋與星際爭霸誰更難對付?AlphaGo Zero創造者說…

昨日,DeepMind 在《自然》雜志上發表了一篇論文,正式推出人工智能圍棋程序 AlphaGo 的最新版本 AlphaGo Zero。同時,在 DeepMind 發布的官方博客中,DeepMind 強化學習團隊負責人、AlphaGo 項目負責人 David Silver 視頻介紹了最新的 AlphaGo Zero。今天,David Silver 與團隊另一成員 Julian Schrittwieser 代表 AlphaGo 創造者在 Reddit 上回答了讀者的一系列問題。本文對這些問答作了編譯介紹。

以下為 David Silver 與 Julian Schrittwieser 代表 AlphaGo 創造團隊在 Reddit 上的問答:

1. 為什么 AlphaGo Zero 的訓練如此穩定?深度強化學習極其不穩定且易于遺忘,自我對弈(self-play)也是,兩者的結合如果沒有很好的(基于模仿的)初始化和大量人類棋譜將是一個災難。但是 AlphaGo Zero 從零開始,并且沒有借助人類棋譜來防止遺忘或死循環。論文對于這點沒有涉及,因此你們是如何做到的?

David Silver:相較于典型的(無模型)算法,如策略梯度或者 Q 學習,AlphaGo Zero 采用了一種相當不同的深度強化學習方法。借助 AlphaGo 搜索,我們顯著提升了策略和自我對弈的結果,接著我們使用簡單的基于梯度的更新訓練下一個策略+價值網絡。這要比累加的、基于梯度的策略提升更加穩定,并且不會遺忘先前的成果。

2. 你認為 AlphaGo 能解決 Igo Hatsuyoron 120 這個「史上最難死活題」嗎?即贏取一個給定的中局或者確定一個現有解決方案(如 http://igohatsuyoron120.de/2015/0039.htm)?

David Silver:我們剛剛請教了樊麾,他認為 AlphaGo 會解決這個問題,但更為有趣的是 AlphaGo 能否找到書中的答案,或者我們想不到的方案。而這正是我們在 AlphaGo 的訓練中多次目睹的事情。

3. 你們認為圍棋與星際爭霸 2 哪個更有難度?面臨的最大潛在技術障礙是什么?正式更新什么時候出來?

Julian Schrittwieser:我們宣布開放星際爭霸 2 環境剛過去幾個星期,所以現在還處于早期階段。星際爭霸的行動空間確實要比圍棋更具挑戰性,因為其觀察空間要遠大于圍棋。從技術上講,我認為兩者最大的區別之一在于圍棋是一種完美信息博弈,而星際爭霸因為有戰爭迷霧,屬于不完美信息博弈。

4. 你覺得數據比算法更重要嗎?不過你關于 AlphaGo Zero 的新論文卻暗示了另外的含義。

Julian Schrittwieser:我覺得目前算法仍然比數據更重要,只要看看 AlphaGo Zero 比之前幾個版本的訓練效率高出那么多就能理解。而且我認為在未來,數據在訓練效率上的重要性也會大有提升。

5. 由于整個管道只在模型的最新最好版本上展開自我對弈,你們認為模型在使用具體的 SGD 算法更新參數空間時存在過擬合風險嗎?看起來最后的模型游戲過程中,模型會稍微依賴于隨機初始化權重以及實際面對的游戲狀態(作為隨機行動采樣的結果)。

David Silver:實際上,表征也很可能在其他選擇上表現良好。但是我們有 3 個理由使用堆疊的觀測歷史:(1)它在其它領域(比如 Atari)的常用輸入表征是一致的;(2)我們需要一些歷史來表征 ko;(3)了解對手最近輸入位置的歷史很有用,這可充當一種注意力機制(即注意對手的想法很重要)。

6. 這會是 AlphaGo 的最終迭代版本嗎?

David Silver:我們已經停止了強化 AlphaGo 的積極研究,但仍保留了研究試驗臺,以供 DeepMind 人員驗證新思路和新算法。

7. DeepMind 和 Facebook 都在大力研究強化學習,你認為是什么令 AlphaGo 的表現能如此快速地提升? 此外對于機器學習前沿,特別是強化學習,其發展趨勢如何?

David Silver:Facebook 更關注監督學習,它能產生當時性能最優的模型;而我們更關注強化學習,因為我們相信它最終會超越人類已有的知識而進一步取得提升。我們最近的結果實際上表明,只有監督學習確實可實現令人驚嘆的表現,但強化學習絕對是超越人類水平的關鍵。

8. 有開源 AlphaGo 的計劃嗎?

David Silver:我們之前已經開源了大量的代碼,但過程一直非常復雜。不幸的是,AlphaGo 項目的代碼庫更加復雜,甚至有點過分。

9. 我們現在可以通過強大的國際象棋引擎給棋手做內部評級,一步一步地分析棋手的下棋過程進而評定 Elo 等級分。這可以使我們更有條理的做事,比如比較不同時代的棋手,而且還有可能提供研究人類認知的平臺。這對 AlphaGo 也有效嗎?我猜測這對圍棋來說會更加復雜,因為在國際象棋中不需要考慮 margin of victory。

Julian Schrittwieser:這確實是個很棒的主意!我覺得我們完全可以在圍棋中做同樣的事情,可能會以比較最佳落子和每一步落子的價值的方式,或者使用決策網絡為每一步落子分配的概率。如果有時間的話,我很樂意嘗試。

10. 你們在 AlphaGo Zero 中首先嘗試自我對弈訓練而不是整合人類比賽數據。為什么 AlphaGo 之前的版本沒有使用自我對弈訓練呢,還是已經嘗試過,但效果沒有這么好,為什么?我很好奇這一塊的發展和進步。和現在相比,兩年前在 AlphaGo 訓練過程中使用自我對弈有什么瓶頸嗎?從最終成就自我對弈系統的所有迭代中收獲了什么「機器學習知覺」(machine learning intuition)?

David Silver:創建利用自我對弈來學習的系統在強化學習領域一直是一個開放性問題。我們最初嘗試了文章提到的很多類似算法,發現都不穩定。我們進行了很多次實驗,最終發現 AlphaGo Zero 的算法是最高效的,而且應該解決了這個問題。

11. 據說 AlphaGo 柯潔版本僅需李世乭版本處理能力的 1/10。你對此做了哪些優化?也就是說 AlphaGo 柯潔版本的能力是李世乭版本的 10 倍嗎?

Julian Schrittwieser:這主要是因為價值/策略網絡的改善,訓練和架構都變得更好。這篇論文的圖 4 對比了不同網絡架構。

12. 有考慮過使用生成對抗網絡嗎?

David Silver:在某種意義上,自我對弈(self-play)訓練已經是對抗性質的:每次迭代都試圖找到對抗上一版本的「anti-strategy」。

13. 在設計 AlphaGo 系統架構時,最困難的部分是什么?

David Silver:我們遇到的一個重大挑戰是在與李世乭比賽期間出現的,當時,我們意識到 AlphaGo 偶爾會受到我們稱之為「錯覺(delusion)」的影響,即對弈中智能體會持續多次系統地誤解當前的棋局,并嘗試了很多方法來解決它,如給智能體灌輸更多的圍棋知識或人類元知識。我們的解決方法是使智能體變得更加條理化,使用更少的知識,更多地依賴強化學習來生成更高質量的解決方案;最終我們取得了成功,在 AlphaGo 中消除了這些問題。

來源:品途商業評論

AlphaGo David Silver 學習 強化
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


觀點約架

主站蜘蛛池模板: 国产90后美女露脸在线观看 | 天天爽天天干天天操 | 欧美白虎逼 | 亚洲图片一区二区 | 色老板在线免费视频 | 国产一卡2卡3卡四卡高清 | 美女张开双腿让男人捅 | 亚欧精品在线观看 | 91精品国产综合久久福利 | 俄罗斯一级大片 | 精品视频在线免费 | 肉肉小说在线阅读 | 邪恶肉肉全彩色无遮琉璃神社 | 国产最强大片免费视频 | 午夜一区二区福利视频在线 | 国产资源一区 | 99热久久这里只有精品6国产网 | 99久久综合久中文字幕 | 美女在尿口隐私视频 | 青草青视频 | 欧美精品国产一区二区 | 免费亚洲视频在线观看 | 6个老师的尿奴 | 午夜精品久久久内射近拍高清 | 成人性色生活片免费网 | 欧美草逼视频 | 久久受www免费人成_看片中文 | 999国产精品亚洲77777 | 嫩草成人影院 | 国产三区二区 | 免费亚洲一区 | chinesezoozvideos| 色婷婷综合和线在线 | 天堂中文在线免费观看 | 欧美亚洲国产另类 | 国产自产一区c | 国产一区二区视频在线播放 | 天天天天天天天操 | 美女扒开屁股让男人进去 | 99视频精品免费99在线 | 日韩拍拍拍 |