为什么李世石会输:AlphaGo拟人思维无情绪波动

正文
我来说两句(人参与)

扫描到手机

关闭

2016-03-09 16:40:30

来源：搜狐体育作者：better read

直击围棋人机大战李世石执黑先行表情严肃 [保存到相册]

　　3月9日，李世石会输给AlphaGo。

由于您未安装flash播放器视频无法播放，点击这里安装

视频-围棋人机大战首局李世石投子认负AlphaGo

　　AlphaGo横空出世的时候，我写过一篇文章《我们押宝阿尔法围棋》发在BetterRead，讲它为什么会赢。这次讲李世石为什么会输。

　　李世石不是此刻的世界最强者。算上刚刚结束的农心杯三国围棋擂台赛最终局，他已经连续输给中国的柯洁好多盘，输掉了近来两人相争的所有重大比赛。

　　不过，我要讲的不是这个。李世石是不是最强者没有什么关系，他已经够强了。

　　接着看。

　　几个月前，在两人争夺世界冠军头衔之前，被问及与李世石之战胜率如何时，柯洁说：李世石有5成，如果总共有100成的话。

　　棋盘如战场，不许人间见白头。十余年前，李世石像柯洁这般如日中天的时候，也是一样地盛气凌人，不给别人留路走。

　　不过，我要讲的也不是一个李世石遭报应的故事。

　　接着看。

　　后来有人问李世石，你当初那么目无余子，是真的认为自己最强吗？

　　李世石说，不是的，是因为当时李昌镐太强大了，又没有任何破绽，我觉得自己模仿他的平衡风格毫无胜算，只有尽力张扬自己的性格才有可能破局（李昌镐是1990年代中期到本世纪第一个10年中期无争议的围棋统治者。今天围棋总共产生了100个世界冠军，其中他拿的最多，17个）。

　　少年的心事与心机啊。

　　李世石及其发扬光大至今仍统治职业棋界的棋风，极度重视气势：你要战，我便战；你不要战，我更要战，追求从一开始便将对手拉入不到终局不休的无数场战斗之中。

　　为什么这个策略可行？

　　第一，战斗中，双方下错的概率显著增加。你会犯错，我也会犯错。棋手不再不切实际地寄希望于不犯错误，而是争取自己的错误犯得较小，避免自己成为犯最后那个错误的一方。

　　第二，主动将局面导向这种博弈的一方，在心理上、棋风上乃至体力上更有准备。

　　第三，一战定局这种事变得越来越少，一局棋变得很漫长，在可能多达几十场战斗中，如果你擅于捕捉机会，机会多很多。

　　全力张扬桀傲个性，不求平衡，从开局战斗到终局，李世石创造了自己的时代，引领了一代围棋风格，其间收获了十多个世界冠军头衔，也埋下了今天面对AI的尴尬。

　　为什么？

　　与投资界里常说的赢亏同源相似，李世石的长处明显，短板也明显，都是一个：在战斗中寻找对手的破绽，自己的破绽也会增多，为将局面引入乱战，甚至不惜故意露出破绽，开局即崩。

　　李世石雄踞世界棋坛多年，但没有留下传统意义上的名局，就是那种棋：双方落子都甄于完美，没有恶手，一方取胜是因为下得更好，而不是另一方下得不好。李世石固然会下出绝妙手段，但也会露出不少破绽，下出不少恶手，一盘棋赢下来是因为对手的破绽和恶手更多。李世石拿到世界冠军的不少决胜谱很难看，对手在懊恼自己犯下错误之余，更有许多郁结。不信请问同为世界冠军级棋手但被李世石多次碾压的常昊、孔杰。李世石棋风有恶名“僵尸流”，就是这样来的。

　　这样说对李世石并不公平。旁观李世石下棋，会觉得李世石的棋风很脆，常常在开局用压迫式的布子求战，结果露出破绽，一举落入下风；然而那些坐到李世石对面的高手，会觉得李世石的棋强韧之极，他们常常赢得每场战斗，直到输掉最后一场战斗。

　　可是，李世石这样下，用自己的不稳定賭对手的更不稳定，对AI会有效吗？

　　点到即止。

　　最后，再来看一下AlphaGo。

　　上周，研发AlphaGo的Goolge Deepmind创始人Demis Hassabis在牛津大学发表演讲，介绍人工智能进展，其中大部分内容介绍AlphaGo（https://www.youtube.com/watch?v=4fjmnOQuqao ）。

　　面对当前局面，AlphaGo不是作穷举计算，两个深度学习算法极大地减少了计算量。“策略网络”算法负责下一步的落子选择，从理论上存在的平均200种可能选择，缩小到三四种得分最高的选择；“价值网络”算法负责评估落子后的局面与最终胜负的概率关系，就是判断局面是否处于优势，优势多大。

　　前者减少计算的宽度——不用去计算所有落子的可能；后者减少计算的深度，不用徒劳地去尝试算到底。

　　这确实就是人类棋手在面对棋局时的思维方式。没有人能算到终局，也无须如此，只要算到下一步棋能导向优势就足够了。用诺奖得主、经济学家、政治学家、人工智能专家司马贺（Herbert Simon）的话说，人做不到完美（optimal）计算，做够用就行（satisficing）的算计。AlphaGo下棋看来也是如此。可是，AlphaGo有拟人的围棋思维，但它不会有人的波动。与人下，你露出破绽，还有无数机会；与它下，就结束了。

　　从诞生以来，AlphaGo主要是自己的许多个分身之间下棋，多到每天下几十万盘。武侠小说中左脚踩右脚越升越高的轻功是乱盖的，但AlphaGo跟自己下棋却真能涨棋，Hassabis称之为内部测试。每隔一段时间，AlphaGo会跟外部棋手下，以作校准，这叫外部测试。前两次外部测试，2015年4月跟同为AI的crazystone下，2015年10月跟樊麾下，结果大家都知道了。

　　Hassabis最后说，跟李世石对战，绝大多数职业棋手认为AlphaGo会输，但我们的内部测试结果可不是这样。

　　走着看。