AlphaGo Zero用40天成为世界最强围棋AI-搜狐体育

　　ZM-GO

　　关注

　　AlphaGo的论文发布早就有预告，有预兆，并非突如其来，石破天惊……但当它就这样出现，糊在小编脸上，还是显得那么让人震撼……论文摘要在另一篇置顶文已经有了，这里只是略微补全一些周边信息。

　　AlphaGo论文中涉及的83局棋谱参见棋谱-棋谱大全-（底部）AlphaGo进化史

　　棋士柯洁：一个纯净、纯粹自我学习的alphago是最强的...对于alphago的自我进步来讲...人类太多余了

　　李喆：完全抛开人类围棋知识，去年论文里提到的许多特征和rollout全部去掉，两个神经网络合为一个，只给定棋盘、棋子和规则。从乱下开始，1天达到V18（超越人类棋手水平），21天达到Master，40天碾压Master。 less is more。 2017年起，在某些领域，AI不再需要人类知识。

　　Nature微博原文：

　　【可以自学成才的AlphaGo Zero】本周Deepmind在《自然》发表的一篇论文Mastering the game of Go without human knowledge，一款新版的AlphaGo计算机程序能够从空白状态起，在不需要任何人类输入的条件下，迅速自学围棋。这款新程序名叫AlphaGo Zero，以100比0的战绩打败了它的前任（在2016年3月的锦标赛中，其前任打败了围棋冠军Lee Sedol）。

　　人工智能的最大挑战是研发一种能从零开始、以超人类的水平学习复杂概念的算法。为了打败人类围棋世界冠军，科学家在训练上一款AlphaGo时，同时用到了监督式学习（基于上百万种人类专业选手的下棋步骤）和基于自我对弈的强化学习。那款AlphaGo的训练过程长达几个月，用到多台机器和48个TPU（神经网络训练所需的专业芯片）。

　　AjaHuang社交平台原文：

　　大家好，我們很高興與大家分享AlphaGo的第2篇論文，非常榮幸AlphaGo團隊再次登上了世界頂尖的《自然》雜誌。

　　這篇論文介紹了AlphaGo Zero，也就是完全脫離人類知識的AlphaGo版本。主要成果如下：

　　- AlphaGo Zero從零開始自我學習下圍棋。

　　- 僅僅36小時後，AlphaGo Zero靠著自我學習，就摸索出所有基本且重要的圍棋知識，達到了與李世石九段對戰的AlphaGo v18的相同水平。

　　- 30天後，不斷進步的AlphaGo Zero達到了Master的水平。Master即年初在網上達成60連勝的AlphaGo版本。

　　- 40天後，AlphaGo Zero對戰Master達到近90%勝率，成為有史以來AlphaGo的最強版本。

　　雖然AlphaGo Zero沒有公開下過棋，在論文中我們附上了AlphaGo Zero的80局棋(選自不同階段的自我學習)，供大家研究。從圍棋技術的角度來說，AlphaGo Zero所發現的圍棋觀念、下法與定式等等，絕大部分與人類的圍棋觀念是一致的，這也間接呼應了人類幾千年以來圍棋研究的價值。AlphaGo Zero的棋風特別好戰，並且也喜歡直接點33。從論文內容來說，這主要是一篇強化學習的論文，關鍵技術在於強化學習訓練pipeline的效能極大化。

　　針對這篇論文或AlphaGo想要提問的朋友，請參加明天的AlphaGo AMA，AlphaGo團隊的David Silver與Julian Schrittwieser將在線以英文回答大家的問題。

　　静静的午夜，小编只想静静的打会儿谱……粗粗浏览了一下AlphaGo Zero的棋谱，感觉人类这几十年来的棋，下的还是蛮靠谱。

—— END ——

　　Since2010

AlphaGo Zero用40天成为世界最强围棋AI

本文相关推荐

周末围棋

AlphaGo Zero用40天成为世界最强围棋AI

请先登录再操作

请先登录再操作

本文相关推荐

周末围棋