图片说明

AlphaGo Zero用40天成为世界最强围棋AI

周末围棋 阅读(0) 评论()

  ZM-GO

  

  关注

  

  AlphaGo的论文发布早就有预告,有预兆,并非突如其来,石破天惊……但当它就这样出现,糊在小编脸上,还是显得那么让人震撼……论文摘要在另一篇置顶文已经有了,这里只是略微补全一些周边信息。

  AlphaGo论文中涉及的83局棋谱参见棋谱-棋谱大全-(底部)AlphaGo进化史

  

  

  棋士柯洁:一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了

  

  李喆:完全抛开人类围棋知识,去年论文里提到的许多特征和rollout全部去掉,两个神经网络合为一个,只给定棋盘、棋子和规则。从乱下开始,1天达到V18(超越人类棋手水平),21天达到Master,40天碾压Master。 less is more。 2017年起,在某些领域,AI不再需要人类知识。

  Nature微博原文:

  【可以自学成才的AlphaGo Zero】本周Deepmind在《自然》发表的一篇论文Mastering the game of Go without human knowledge,一款新版的AlphaGo计算机程序能够从空白状态起,在不需要任何人类输入的条件下,迅速自学围棋。这款新程序名叫AlphaGo Zero,以100比0的战绩打败了它的前任(在2016年3月的锦标赛中,其前任打败了围棋冠军Lee Sedol)。

  人工智能的最大挑战是研发一种能从零开始、以超人类的水平学习复杂概念的算法。为了打败人类围棋世界冠军,科学家在训练上一款AlphaGo时,同时用到了监督式学习(基于上百万种人类专业选手的下棋步骤)和基于自我对弈的强化学习。那款AlphaGo的训练过程长达几个月,用到多台机器和48个TPU(神经网络训练所需的专业芯片)。

  

  AjaHuang社交平台原文:

  大家好,我們很高興與大家分享AlphaGo的第2篇論文,非常榮幸AlphaGo團隊再次登上了世界頂尖的《自然》雜誌。

  這篇論文介紹了AlphaGo Zero,也就是完全脫離人類知識的AlphaGo版本。主要成果如下:

  - AlphaGo Zero從零開始自我學習下圍棋。

  - 僅僅36小時後,AlphaGo Zero靠著自我學習,就摸索出所有基本且重要的圍棋知識,達到了與李世石九段對戰的AlphaGo v18的相同水平。

  - 30天後,不斷進步的AlphaGo Zero達到了Master的水平。Master即年初在網上達成60連勝的AlphaGo版本。

  - 40天後,AlphaGo Zero對戰Master達到近90%勝率,成為有史以來AlphaGo的最強版本。

  

  雖然AlphaGo Zero沒有公開下過棋,在論文中我們附上了AlphaGo Zero的80局棋(選自不同階段的自我學習),供大家研究。從圍棋技術的角度來說,AlphaGo Zero所發現的圍棋觀念、下法與定式等等,絕大部分與人類的圍棋觀念是一致的,這也間接呼應了人類幾千年以來圍棋研究的價值。AlphaGo Zero的棋風特別好戰,並且也喜歡直接點33。從論文內容來說,這主要是一篇強化學習的論文,關鍵技術在於強化學習訓練pipeline的效能極大化。

  針對這篇論文或AlphaGo想要提問的朋友,請參加明天的AlphaGo AMA,AlphaGo團隊的David Silver與Julian Schrittwieser將在線以英文回答大家的問題。

  

  静静的午夜,小编只想静静的打会儿谱……粗粗浏览了一下AlphaGo Zero的棋谱,感觉人类这几十年来的棋,下的还是蛮靠谱。

—— END ——

  Since2010

sports.sohu.com true 周末围棋 https://sports.sohu.com/20180508/n537009574.shtml report 3542 ZM-GO关注AlphaGo的论文发布早就有预告,有预兆,并非突如其来,石破天惊……但当它就这样出现,糊在小编脸上,还是显得那么让人震撼……论文摘要在另一篇置顶