人工智慧AlphaGo

發表人:陳華夫 文章觀看數:37840 發表時間:2017/09/02 文章分類:退休心得

 AlphaGo-II的棋力為何如此高超?

AlphaGo團隊的席佛(David Silver)博士,在浙江烏鎮圍棋峰會賽後演講中回答了這個問題,摘要重點如下:

AlphaGo Master(作者按:即AlphaGo-II)為何如此厲害呢?背後的原因是因為我們用了最好的資料來訓練它。我們能獲取到的最好的資料不是來自於人類,而是來自於AlphaGo自己。我們讓AlphaGo做自己的老師。我們利用AlphaGo強大的搜索能力,自己生成資料,用生成的資料讓下一代的AlphaGo學習。AlphaGo自己訓練自己,自己從自己身上學習。通過強化學習的形式,它學到如何提高棋力。

我認為,席佛博士頂者AlphaGo-II創造者成員的光環,發表了如此過度樂觀,但未經學術證實的言論,是稍嫌輕率。這是攸關圍棋未來發展的大事,任何正面及反面的論斷都要極端審慎,我衷心希望他能以嚴謹的學術論文澄清他的言論;真理、歷史是愈辯愈明。

在此,我也沒有嚴謹的學術論證,只以我多年來在人工智慧的知識,再加上對AlphaGo-II現代流64局的理解,發表些個人的看法,疏漏之處,尚請專家學者批評指正。

我在前面花些篇幅說明AlphaGo-II厲害之處(致勝武器)是現代流4原則。

席佛博士認為AlphaGo-II為何厲害的原因是「強化學習加上自我互搏」。

我回答的是AlphaGo-II厲害之處的「What」(是什麼)的部分。

席佛博士回答的是Why」(為什麼)的部分。

兩種回答,都需要。各有功能。

我的回答是把AlphaGo-II的內部看作黑盒子,如行為派科學家一樣只觀測它的外部行為,也就是現代流64局。據此,我歸納出AlphaGo-II厲害之處(致勝武器)是現代流4原則。

既然現代流4原則完勝萬千難懂的定式棋譜,圍棋學子今後就不必再背誦定式棋譜了。並且,任何「人工智慧」公司也可根據現代流4原則研發出類似AlphaGo-II等級,卻非13層或以上的CNN類神經網絡的電腦圍棋。

但要進一步瞭解AlphaGo-II的未來發展,棋力還可提高到何種層次,就需要探討AlphaGo-II的內部構造。

席佛博士從AlphaGo-II內部的機構來看,「強化學習加上自我互搏」。可以不斷的自我提升棋力。

我認為是過度樂觀,當棋力提升撞到天花板,就沒有空間再提升了。

下面詳述理由。

AlphaGo-II的互搏是提供它學習的資料,而其學習的方法是「強化學習」。

席佛博士本人就是研究「強化學習」的專家,他2009年的博士論文的題目是「Reinforcement Learning and Simulation-Based Search in Computer Go」(中譯:「電腦圍棋裡的『強化學習』及基於模擬的檢索」)。在其論文第二頁說:「強化式學習是研究一個人類或人工系統的最佳的決策。」(原文:Reinforcement learning is the study of approximately optimal decision-making in natural and artificial systems.),

換句話說,AlphaGo-II用「強化學習」的方法在自己互搏的資料(即棋譜)上,發展最佳「次一手策略」。

此處,要注意,所謂的「強化學習」並非「強化」本身的學習方法上。而是在學習資料中,學習(歸納)出最佳的次一手策略。

於是,互搏的棋譜的質量(棋力)決定這個最佳的策略的質量(棋力)。

舉例來說,AlphaGo-II的前身AlphaGo-I也是基於「強化學習」,但是它的學習資料是千萬個人類古典流棋譜,找出的最佳策略的質量(棋力)並不高。席佛博士說AlphaGo-II 可以授AlphaGo-I 3子。

當初AlphaGo-I成功的跳升至AlphaGo-II,一定要成功的把它的學習資料(棋譜)庫裡,沾染「認知偏見」的古典流博殺亂戰的棋譜剔除出去。才能提高學習資料(棋譜)庫的質量。才能提高棋力。

但每一學習循環的資料(棋譜)庫都來自上一循環的最佳策略的自我互搏。

也就是說,「強化學習」的最佳化,可以「過濾掉」低品質的棋譜,而提升棋力。

這是高難度的學習,互搏、再學習。事涉商業機密,在此不做討論,

姑且,相信AlphaGo-II的棋力是如此提升的,但他在多次學習、互搏的循環後,會碰到棋力提升的上限(天花板),因為「強化學習」或任何「監督學習」及「非監督學習」本質上都是某種「成本函數」(Cost function)的「最佳化」(optimization),一旦達到最佳值,就沒有更佳值了,也就是碰觸天花板了。

所以,我認為AlphaGo-II 無法不斷的自我提升

5)不會再有第二次圍棋革命,現代流不會再被革命

AlphaGo-II 或其他的電腦程式的棋力天花板在哪?

將來會有個AlphaGo-III的圍棋革命嗎?

答案是否定的,不會再有新圍棋革命了。

理由如下:

圍棋與物理不同,物理所探討的「自然」,神秘未知。人類持續探索自然法則,就持續有科學革命。

而圍棋並非神秘的「自然」,而是圍棋規則規範下賽局。

圍棋基本規則是黑先白後,一人一手,圍地多半目者贏。

次一級的規則是:兩眼活,打劫,黑先貼目。

圍棋的基本規則衍生出棋理,棋理衍生出「次一手策略」。

眾多「次一手策略」裡,古典流沒有中心思想原則,只是搏殺亂戰,設局殺龍,它追求「最大限度贏棋」,「最大限度收官」,不僅違反兵法「窮寇莫追」的禁忌,易遭反噬。也違反了「圍地多半目者贏」的棋理,其原因是人類腦生理限制,昧於準確的「局勢判斷」,往往是缺乏安全感的先撈及多撈,無一例外的都是些無理棋,無理棋能欺負低手,碰到高手就是敗著。

現代流4原則規範了AlphaGo-II的次一手策略,已經最佳的體現了當今圍棋的棋理原則,可以授古典流3子。既然是「最佳」,就不可能有「更佳」。

所以,將來只要圍棋不更新規則,就不會出現新的棋理原則,也就沒有新的AlphaGo-III 圍棋革命。

以上是摘自拙著:現代流圍棋 ─ 如何簡單對戰AlphaGo-II_(第一集)

作者:陳華夫 博士 ,頁數:424

http://www.dawisdom.com

請大家參考

我要回應文章 發表新文章
本篇文章共有 0 篇回應