ZM-GO

关注

AlphaGo的论文发布早就有预告,有预兆,并非突如其来,石破天惊……但当它就这样出现,糊在小编脸上,还是显得那么让人震撼……论文摘要在另一篇置顶文已经有了,这里只是略微补全一些周边信息。
AlphaGo论文中涉及的83局棋谱参见棋谱-棋谱大全-(底部)AlphaGo进化史


棋士柯洁:一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了

李喆:完全抛开人类围棋知识,去年论文里提到的许多特征和rollout全部去掉,两个神经网络合为一个,只给定棋盘、棋子和规则。从乱下开始,1天达到V18(超越人类棋手水平),21天达到Master,40天碾压Master。 less is more。 2017年起,在某些领域,AI不再需要人类知识。
Nature微博原文:
【可以自学成才的AlphaGo Zero】本周Deepmind在《自然》发表的一篇论文Mastering the game of Go without human knowledge,一款新版的AlphaGo计算机程序能够从空白状态起,在不需要任何人类输入的条件下,迅速自学围棋。这款新程序名叫AlphaGo Zero,以100比0的战绩打败了它的前任(在2016年3月的锦标赛中,其前任打败了围棋冠军Lee Sedol)。
人工智能的最大挑战是研发一种能从零开始、以超人类的水平学习复杂概念的算法。为了打败人类围棋世界冠军,科学家在训练上一款AlphaGo时,同时用到了监督式学习(基于上百万种人类专业选手的下棋步骤)和基于自我对弈的强化学习。那款AlphaGo的训练过程长达几个月,用到多台机器和48个TPU(神经网络训练所需的专业芯片)。

AjaHuang社交平台原文:
大家好,我們很高興與大家分享AlphaGo的第2篇論文,非常榮幸AlphaGo團隊再次登上了世界頂尖的《自然》雜誌。
這篇論文介紹了AlphaGo Zero,也就是完全脫離人類知識的AlphaGo版本。主要成果如下:
- AlphaGo Zero從零開始自我學習下圍棋。
- 僅僅36小時後,AlphaGo Zero靠著自我學習,就摸索出所有基本且重要的圍棋知識,達到了與李世石九段對戰的AlphaGo v18的相同水平。
- 30天後,不斷進步的AlphaGo Zero達到了Master的水平。Master即年初在網上達成60連勝的AlphaGo版本。
- 40天後,AlphaGo Zero對戰Master達到近90%勝率,成為有史以來AlphaGo的最強版本。

雖然AlphaGo Zero沒有公開下過棋,在論文中我們附上了AlphaGo Zero的80局棋(選自不同階段的自我學習),供大家研究。從圍棋技術的角度來說,AlphaGo Zero所發現的圍棋觀念、下法與定式等等,絕大部分與人類的圍棋觀念是一致的,這也間接呼應了人類幾千年以來圍棋研究的價值。AlphaGo Zero的棋風特別好戰,並且也喜歡直接點33。從論文內容來說,這主要是一篇強化學習的論文,關鍵技術在於強化學習訓練pipeline的效能極大化。
針對這篇論文或AlphaGo想要提問的朋友,請參加明天的AlphaGo AMA,AlphaGo團隊的David Silver與Julian Schrittwieser將在線以英文回答大家的問題。

静静的午夜,小编只想静静的打会儿谱……粗粗浏览了一下AlphaGo Zero的棋谱,感觉人类这几十年来的棋,下的还是蛮靠谱。
—— END ——
Since2010