人机大战怎么看？AI专家、围棋铁粉、科幻作家来作答

本文整理自本周四科学人线上沙龙分享会——科学人邀您讨论人机大战。

我们请来了三位嘉宾，从多个方向与网友共同分析讨论此次李世乭对决阿尔法狗。

俞扬

南京大学副教授，AI专家

主要研究领域为人工智能、机器学习、演化计算、数据挖掘，特别关注演化计算的理论基础与演化学习。

谢谢果壳网的邀请，我今天主要是向大家介绍一下人工智能在围棋方面的基础知识。

大家都看到今天李世石很不幸的又输了一局（活动当天为人机对决第二场），看起来阿尔法狗特别强大，那么阿尔法狗的背后到底是什么在支撑着它有如此顶尖的棋力呢？

我想讲的稍微远一点，从60年前人工智能刚刚诞生的时候开始说起。从那个时候开始，工程师把人机博弈当成是一个非常重要的任务，因为下棋这种活动我们理解为它是人类的一种很高智商的活动。在那个时候，大家还不太清楚人工智能的智能到底是什么，能够做到怎样的一个事情，这个机器可以被称之为时智能的？研究人员们一直把能够下棋当做是人工智能达到智能的一种标准。

我们在下一盘棋的时候，我这一步到底该怎么走？我当前的棋盘可能有10种走法，那种走法比较好呢？我会看对手怎么走，怎样对自己更为有利。对方又会走哪一步呢？所以需要反反复复的推敲。由于我们看不到最后的围棋结局，科学家设计了很多方法能够让我们的思考不用看到最后的结局也能做出判断。这种方法叫做启发式函数，在我下棋下到一半的时候，会有一个设计让我能够判断现在的棋局谁占优势，如果现在我是占优势的，我就继续按这个套路走下去。

1997年，深蓝战胜卡斯帕诺夫的主要方法就是基于这样的方法，也就是说主要靠搜索，我看的步数比人多出很多步，很多步以后我的棋局会比你好，所以我现在就选择走这一步。但是这个方法在97年过后到现在都没有办法用在围棋上面，因为围棋，大家已经很清楚了，围棋非常非常复杂，围棋里面可以包含很多很多国际象棋。

那么阿尔法狗和深蓝有什么不一样呢？实际上，阿尔法狗里面有三个元素，两种叫做学习，一种叫做搜索。即使是搜索，和深蓝的搜索也不一样。这种搜索叫做蒙特卡罗术搜索，在2006年被提出的时候就发现在围棋上取得了很大的进步，能够达到业余的五、六段。那么，直接用这个蒙特卡洛术搜索，在2006年达到业余五、六段的水平，但是已经很难再进一步提高了。

另外的两种学习，一种叫做监督学习，另一种叫做强化学习。

监督学习是什么呢，有点儿像教学生做题，给一个题目，告诉一个答案，这个题目就该填这个答案。用在围棋上就是，搜集了很多以往的棋谱，看到很多以往的棋局，看到这个棋局就知道这个高手是怎么走的，直接学习这个中间的关系，这个就叫做监督学习。所以呢，DeepMind 先搜集了大量的高手的对弈棋局，但是这个量还是不够大，相对于围棋的整个空间来说，还非常的小。

第二部分呢，就是强化学习，这个时候就没有专家的棋谱了，电脑和电脑自己下。电脑A与B下一局结束以后，如果是电脑A赢了，就从这个结局倒推来进行学习。

所以整个阿尔法狗的体系结构呢，首先第一步，我先从高手的对决的数据里来模仿高手是怎么下的，但是他对于每一步的影响是一无所知的，只是专家是这么下的我也这么下。第二步就是把强化学习和蒙特卡罗术搜索结合起来，自己和自己下，通过自己和自己下来提高，训练的时候据说是下千万盘，这个数量有可能比整个人类历史上下棋的总和的数量都要多。

在大赛开始之前，其他在人工智能领域的专家，很多都预测人是会赢的，机器是下不过人类的.这样的判断的主要出发点是，我们认为目前阿尔法狗的技术的上限是很明确的，有很多很清晰的缺陷。那么从这两局对弈的结果来看，好像人的缺点呢似乎更大一点，第一局里面人的心理因素太明显，第二局里面，观看全程发现，人对于没有见过的棋盘的处理不是很好。

云端的小卡

骨灰级围棋爱好者

骨灰级围棋爱好者，对围棋规则有过深入研究。

现就职于果壳网MOOC学院市场部。

大家好，我是小卡，我并不是专业的围棋棋手，但我是围棋狂热爱好者。今天给大家简单科普下围棋的下法，因为我觉得身边还是很多人看不懂围棋的_(:зゝ∠)_

请注意，围棋并不是连线成功者胜

围棋盘由 19 条横线 19 条竖线组成，共 361 个交叉点，棋子要下在线的交叉点上，方格中不能放入棋子。为了便于识别棋子的位置，棋盘上划了九个点，术语称做「星」，中央的星点又称为「天元」。棋子分黑白两色，黑先白后。

相对于象棋和国际象棋来说，围棋最大的特点就是变化情况多，号称「千古无同局」。过去常说围棋变化数是 3^361，实际上是不对的，因为根据围棋规则，很多交叉点是不可以落子的。所以围棋的精确变化数一直都没有确定。直到 2016 年 1 月，普林斯顿大学研究人员公布了 19 × 19 格围棋的精确合法棋局数，这是一个 171 位数，约为 2.08 × 10^170 种变化，大概是 3^361 的 1.2%。相关算法被公布在了 Github 上面，各位有兴趣可以去看看。

因为围棋的规则讲解起来会非常复杂，所以今天就只讲围棋该如何判定胜负吧。和中国象棋那种谁吃掉对方的将或者帅就取胜的方法不同，围棋最终是通过计算双方在有限的棋盘上获取地盘大小来判断胜负。本来是谁达到 181 个点谁获胜，但是在下围棋时是黑棋先行，相对于白棋占有一定的优势，所以在制定规则时会规定黑棋送给白棋一定交叉点作为补充，围棋上称为子或目，「1 子」等于「2 目」。

作为一项初期只在中日韩三国流行的项目，现在世界上的规则也基本上以这三国为主，另外台湾的应昌期先生在创办「应氏杯」围棋比赛的时候制定的一份规则，现在也在部分比赛中采用。和普通规则以「目」或「子」为单位不同，应氏规则定义的单位是「点」，且「点」只为整数。

目前，中国规则规定黑棋贴目为 3 又 3 / 4 子，合 7.5 目，采用「数子法」，即「子空皆地」，在终盘结束后点清一方在棋盘上所有的棋子和属于它交叉点数，相加根据结果判断胜负；日韩规则规定黑棋贴目为2 又 3 / 4 子，合 6.5 目，采用「比目法」，即在终盘时仅点清棋盘上；应氏规则规定黑棋贴目为 8 点，在终局时双方填满计算地域，与中国规则类似。

关于胜负呢，有一些常见的问题，在这里直接和各位分享一下。

A1：报道说 AlphaGo 训练时就采用的中国规则进行训练，包括贴目和点目。前面所说的各种规则之间的不同，其实最大的差异就在于贴目，点目方法的差别对于会下围棋的人来说差别不大，本质上都是一样的。但是相对于日韩懒得「比目法」来说，中国采用的「数子法」更加容易理解——至少对初学者来说是这样的。印象中小时候学棋的时候，我就非常纠结日本到底是怎么点目的。而应氏规则相对于日韩和中国规则，又有其特殊的地方，且采用它的比赛比较少。所以我觉得「容易理解」应该是 DeepMind 团队选择中国规则的主要原因。

A2：贴目的目数是根据大量对局的统计结果来确定的，这个数字不是一成不变的。在我开始学棋的时候，黑棋还只需要贴 6.5 目，结果学了两年，中国规则改了，改成贴 7.5 目了。印象中早年日本也是只贴 5.5 目的，后来才改成跟韩国一样贴 6.5 目。应氏规则的贴 8 点也是其创始人应昌期先生在统计了大量对局之后确定的贴目数。

A3：贴半目是为了减少平局的产生。所谓「半目胜负」是这样——以中国规则为例，在「子空皆地」的原则下——按照贴目来说，黑棋应该是 184 又 1 / 4 子获胜，但在棋盘上不能出现 1 / 4 个子，所以黑棋在终盘点目的时候，盘面棋子和所占交叉点加在一起应该达到 185 才可以获胜。但通常不说赢了 1 / 4 或 3 / 4 子，而是说成 1 / 2 子。黑方总共得 185 子则黑胜 1 / 2 子，得184子则黑负 1 / 2 子。实际上也就是所谓的「半目胜负」。为什么应氏规则没有这个小数部分呢？是因为应氏规则规定平局黑胜，而且实际上下棋的时候，对这半目的争执实际上大多提现在一个「粘劫收后」的问题上，各国对这些情况的规定都是不一样的。之后我会给各位展示一盘最近柯洁和李世石的对局，柯洁正是运用了「粘劫收后」来取得胜利。

A4：有。但和中国象棋与国际象棋相比，围棋的平局非常罕见。好比你扔硬币，概率上应该是存在硬币立在桌面上的情况，但实际上我们在生活中运用抛硬币做概率时就已经将其忽略不计了。但围棋的平局的确是有。传说在 1582 年于本能寺在信长 (cháng) 御前与鹿盐利贤对局，下出三劫循环，三劫循环于围棋规则上就是一种平局。后来当晚两人离去后信长马上死于本能寺之变，因此有「三劫不吉」的说法。最近一次平局是在 17 界三星杯时古力和李世石下出了一盘「四劫循环」的棋，最终判和重赛。另外，各种围棋规则其实也在避免平局的发生，在规则制定的时候加入「禁止全局同型再现」等规定。

1933 年从 10 月 16 日开始到 1934 年 1 月 29 日结束，共计 106 天。期间本因坊秀哉共打挂 13 次，也就是间断性的一共下了 14 天。

在 106 天中，秀哉有 14 天下棋，余下 92 天本因坊门下弟子对此局进行研究；

吴清源除了 14 天花在这盘棋上，在余下的 92 天中，他在其它比赛中还下了 10 盘棋。

吴清源在白棋下了 160 之后，长考 90 分钟下出了 161 的应对，但以无力回天。

这是古力和李世石的第 29 次交手，在之前的 28 盘棋中，二人以 14 比 14 战平。

至今职业比赛历史上有记载的第四盘四劫循环，之前三次分别是： 2002 年中国围棋名人战，俞斌和弟子邱峻下出了“四劫循环”，随后俞斌在加赛快棋中胜出；2005 年，当时“一生之敌”李昌镐和常昊在湖南一项邀请赛中下出四劫循环，最后两人平分了奖金；2014 年围甲联赛第六轮，江维杰和李世石下出四劫循环，加时赛中江维杰获胜。

本局为第二届 Mlily 梦百合杯世界围棋公开赛决赛第五盘，之前四盘二人战成 2:2 平。

柯洁利用中国围棋规则对于「粘劫收后」的规定，以微弱优势取得最终胜利。

关于围棋规则的统一，中日韩和欧美各国相关人士进行过讨论，但最终没有结果。

阿缺

青年科幻作家

出版小说集《与机器人同行》，代表作《收割童年》、（获2014年第25届中国科幻银河奖最佳短篇小说奖）《与机器人同居》获第五届全球华语科幻星云奖最佳短篇银奖。

大家晚上好，今天我跟大家分享一下科幻作家们对人工智能的想象。

人工智能从1956年诞生开始就一直处于话题漩涡的中间，几乎每一个科幻作家都写过关于人工智能的作品，其中最为著名的是阿西莫夫写过的机器人犀利，以及基地系列。而且，著名的机器人三定律就是他设置出来的。机器人三定律就是，第一，机器人不得伤害人类，或因不作为使人类受到伤害。第二，除非违背第一定律，机器人必须服从人类的命令。第三，除非违背第一及第二定律，机器人必须保护自己。但后来，阿西莫夫加入了一条新定律第零定律：机器人不得伤害人类整体，或因不作为使人类整体受到伤害。但是我也与其他作者讨论过，这些定律是从小说中来的，对于现实中的机器人研究并没有太大的作用。

阿西莫夫写过的机器人系列有一篇叫做《两百年人》讲的是一个机器管家花了两百年努力，变成人类。这里面提到了一个永恒的主题，也是写这类题材的小说绕不开的主题——就是机器人渴望拥有自主意识。但是这个主题还是体现了一种作为人的优越感，因为我们都会认为，机器人是冰冷冷的，它的体内只是钢铁和电流。或许装载有强人工智能的机器人不是这么想的，但我们也不会知道他们是怎么想的。如果人工智能可以自主思考，那么他的思维逻辑跟人类肯定是截然不同的，所以大多数人可能都不知道他们是如何思考的。就像大刘的《三体》中提到，三体人不会撒谎，他的思维是开放的，说不定强人工智能机器人也会利用这样的社会结构，他思考，也就是运算出来的结果，可能在公共频道里也是被其他机器人共享的。如果像这种思维模式，我们人类就无法揣摩了。所以说机器人想成为人类，想体验爱，大概就是他们的一厢情愿，那么这么说起来，他们也没有理由发起战争，所以我们可以对机器人持保留意见，不必这么恐惧但也不要太乐观。当然这不影响《两百年人》成为传世经典。

接下来要提到另外一部比较感人的作品，《趁生命气息逗留》，作者是罗杰·泽拉兹尼杰。它被誉为科幻文学史上最出色的十大短篇之一。它讲的是地球人类灭绝，存在两个人工智能，上届司命和下届司命。一个叫做弗洛斯特的机器人受制于他们两个。弗罗斯特在荒芜的地球上游历，遇到了很多事情甚至产生了感情，最终他成为了人类，体验了人类的感情。这里面写得好的地方是作者尽量去理解机器人的思维并用其写出了机器人在这样的思维下会做出的事情，这在小说里是非常高明的事情。

另外一篇在国内比较有代表性的是飞氘老师的《讲故事的机器人》，其中有一篇《去死的慢慢路程》，这是一篇对人工智能的逻辑和使命讲的非常深入的一篇小说。我自己的小说呢比较偏向软科幻，我写了一个系列家政机器人的小说，主要是讲机器人融入生活之后社会格局和心理的变化。这个故事比较温情，主要是讲一个男人和一个呆萌的家政机器人从相遇到最后都老了的故事。还有一篇《格里芬太太打算今晚自杀》，也是一个机器人陪伴人类的故事。我为什么要写这么多机器人科幻题材的作品呢？是因为这个题材最接近现实，因为我觉得本世纪最有可能实现的三个难题——超级人工智能的诞生和人类走出宇宙以及解决婆媳矛盾。后两者可能稍微难一点，但我觉得超级人工智能还是有可能诞生的。

最后我也谈一下对这场人机大战的看法。我觉得从大势上看，人工智能应该是会超越人类的。科技的发展是加速的，现在谁都控制不住了。而我觉得人与AI的未来，我个人觉得不会是战争，未来可能会发生的可能是人与AI的融合，那么新人类就诞生了。我非常期待这个场景的发生。

嘉宾：那么我们先来了解一下图灵测试是什么。图灵测试是用来判断人工智能到底是有没有智能的，或者是说有没有达到人类智能的这样一个测试，是由计算机科学的先驱阿兰·图灵提出来的。图灵测试就是提供了一种方法，来判断一个机器是不是有智能。这个过程是怎样的呢？一个人和一个机器分别在幕后，另外一端有一个人通过一个终端和另外的人或者机器聊天来判断哪边是人哪边是机器。如果人的判断失误超过百分之三十呢，就说明机器通过了图灵测试。为什么是百分之三十呢，因为当时有一个测试是把两个人一男一女放在幕后判断哪边是男那边是女，判断错误的可能性是百分之三十。

但是图灵测试也有很多局限性，比如说如果题目全是翻译题，那幕后的人到底会不会翻译呢？如果不会，但他有一本字典同样也可以把题目交上来。实际上图灵测试假设的是人是智能的标准，但人并不是唯一的智能。比如阿法狗已经下赢了李世石但大家都发现它下的棋和人下的棋非常不一样，所以通过棋就可以判断哪边是机器哪边是人类，所以说阿法狗并不能通过图灵测试，但它有没有智能这就要看大家自己的判断了。

网友：人工智能会不会自我进化？跟科幻作品一样造成自己帝国的生成？

嘉宾：在人工智能里有一个分支是专门研究进化的，叫做人工生命或者叫做进化计算，这跟科幻作品里的进化和生物的进化都不太一样，这是按照人类设定的进化。所以如果按照人类的设定进化，是不太可能会产生机器人帝国。

网友：阿法狗仔第一盘和第二盘中间有进行学习吗？第一盘本身作为标记样本的价值大吗？存不存在越往后李取胜的概率越小的问题？

嘉宾：我认为这一盘棋对于阿法狗来说价值不是很大，但对于人来讲价值非常大。因为现在以目前我们称之为机器学习的技术，需要大量样本。比如阿法狗就收集了人类历史上几乎所有的棋局，自己也下了上千万盘棋，只是把这一盘加进去并不会有太大的影响。那么实际上很多研究都是希望机器从一点点样本就能学好，但现在并不能做到。但对于人来说，少量样本的学习就有非常好的效果。

嘉宾：深蓝主要是以搜索为核心，加了很多人工设计的函数。阿法狗非常不一样的地方是它主要是基于学习的，而搜索的部分跟深蓝也是不一样的。深蓝的搜索需要人来设计一个棋盘来看是谁赢了，而现在是完全不需要的。而且现在阿法狗还具有高性能计算，所以它是一个多领域的成果，和当年相比技术上是有非常大的进步的。

网友：从弱人工智能到强人工智能的发展过程中，人类可能面临的最大难题是什么?在这个过程中如何看待AI威胁论？

嘉宾：弱人工智能就是我们现在看到的人工智能，作用是让计算机变得更聪明一点，而所谓的强人工智能就是让计算机看起来做的和人一样，具有人的思维和意识。我们面临的最大问题就是完全不知道这条路怎么走，因为我们不知道人脑是如何工作的，意识是如何产生的。

从我们目前所能看到的人工智能的技术来看，人工威胁论还没有产生。就现在来看，计算机完成一个任务的能力在不断地加强，但仅限于它完成这个任务，而这任务也是人给的。

网友：两台狗对打就相当于一次强化学习?人的学习很多是从跟环境的互动中得来的，AI的学习也有可能做到这种程度吗？

嘉宾：强化学习是什么呢？跟监督学习对立，监督学习就是一个老师给你一个题目再给你一个答案，你要把题目和答案联系起来，下次遇到这个题目就要回答出这个答案。这就是第一步关于围棋的训练，换句话说就是模仿人在下棋。而强化学习就没有这个老师，所以它下棋要下到结束，要从环境的互动中来强化，这就是强化学习的目标。

网友：能够根据需求编程以及能够需求设计硬件图纸的AI何时会出现？如果软硬件都能自我迭代，这样的AI就能自我设计自我进化，这样的话人类其实就被AI边缘化了？是不是可以理解为目前强人工智能时代还相当遥远？

嘉宾：实际上现在已经有很多硬件的设计就是由计算机完成了。那么我们人来干什么呢？毕竟计算机完成这些事情会比人完成的好。但是它要做这件事的目的是由人类告诉它的。换句话说计算机是人更好的工具。

网友：这次大战是不是特意避免打劫的？以后围棋人类还有机会赢吗?赢得概率有多大？

嘉宾：打劫会造成一个现象，会导致搜索无限进行下去。对于这样的情况人是通过逻辑来处理的，怎么判断下一步呢，就要看对方是怎么下的，对方也会看我是怎么下的。但是对阿法狗来说逻辑还是比较的复杂。但是我认为随着技术的不断进步，肯定会有一天会跟国际象棋一样，人是无法战胜计算机的。

网友：是否有一天AI会自己创造数学公式，或者总结物理规律，这就是奇点来临？

嘉宾：这个问题在多年以前物理三大定律就可以总结出来，但是跟所谓的奇点毫无关系。我个人也认为不会出现奇点。

再次感谢果壳实验室、万有青年烩、科普中国对本次活动的大力支持。