人工智能的未来－ Hassabis

最近看了一些有关【深度血系】（Deep Learning）的讲座视频。原本想和女朋友讨论（她是伦敦大学学院/UCL 认知神经学毕业的，要说还算是 DeepMind 几位创始人, 也就是阿尔法狗 AlphaGo 的缔造者，的校友）。但是她是在提不起兴趣看这些讲座。于是我把这些讲座 summary 整理出来，作为和她探讨的基础，顺便也分享出来。说明：这些不是讲座完整内容的 summary，而是我感兴趣的部分，同时伴有一些我的补充。

Demis Hassabis – The Future of AI (人工智能的未来）

演讲者 Demis Hassabis 是 DeepMind 创始人&CEO。Hassabis 本人出生于伦敦，本科毕业于剑桥，后在从 UCL（伦敦大学学院 University College London）获得 cognitive neuroscience 博士学位。本次讲座是在牛津大学。讲座发生的时间是 2016年 2月，也就是在 AlphaGo 跟李世石对局之前。Hassabis 在讲座中也着重介绍了 AlphaGo。以下是我从讲座中提炼出的内容：

1、DeepMind 的目标是 1）先解决人工智能，然后 2）通过人工智能解决人类一切其他问题，比如科研、医疗、环境问题。Hassabis 本人尤其对引入人工智能来协助科研非常感兴趣和抱有极大期许。人类所积累的知识已经无比广博和复杂，Hassabis 感觉仅仅再凭人的血肉之躯来学习、组织、推进这些知识已经不能够胜任。

2、Reinforcement Learning

所谓 Reinforcement Learning，是 AI 系统学习的一种方式。这种学习方式很类似人类婴儿的学习方式：AI 系统观察它所在的环境，采取一个行为（action），然后观察结果。在这样不断的反馈中学习。

为什么 DeepMind 选取了这个研究框架？因为研究表明，似乎动物和人类就是这么学习的。这给了 Hassabis 以信心：如果生物可以通过 reinforcement learning 实现智能，那么机器应该也可以。

峰哥 comment: 在机器学习中，曾经非常流行的一个方法是 HMM (hidden markov model)。这是通过统计学的模型来实现如语音识别等。当时也取得了非常大的成功，但之后就陷入了瓶颈。等到 2000 年左右，峰哥在学习人工智能的时候，虽然这还是当时热门的技术，但是已经感觉后继乏力。博士生们在用各种奇技淫巧，只为了把准确率提高半个百分点。

人类自己在做语音识别、文字翻译等工作的时候，似乎并不是通过复杂的统计学模型去完成，所以如 HMM 这样的方法，虽然在刚开始获得了一定成功，很有可能最终是个死胡同。就好像通过爬树来实现登月：刚开始一直有稳定的进展，直到有一天，突然不再 work.

电脑围棋也经历的类似的过程：蒙特卡洛方法（也是统计学、概率论中的一种方法）在几年前进入电脑围棋后，立刻获得巨大成功。电脑围棋的水平从以前的不可理喻，很快成长到业余高段的水平。这个峰哥特别有感触，因为我跟电脑下棋，正好从全面碾压到被碾压，当时的心情跟李世石现在估计差不多。但是，之后似乎水平就达到一个瓶颈。似乎【蒙特卡洛】这棵树，也爬到了尽头。如果需要突破，需要另有创新。人类在下围棋的时候，明显也不是通过【蒙特卡洛】这样海量穷举的方法来进行的。难道要达到人类围棋水平，真的必须要模拟人类思考围棋的方式？

另一方面，人类很多工程上的成就，也并非通过【仿生】来实现的。汽车飞机，在速度、距离上已经超过了飞禽走兽，但是其工作原理跟后者几乎没啥交集。实际上，人类最初对于飞行的尝试走了很大弯路，就是因为太禁锢在【仿生】的思路中。

人工智能最终会是通过模仿动物和人类来实现，还是另外走出一条不同的路？大自然已经通过进化找到了解决智能的一个解（我们就是成果）。这会是唯一解吗？

3、Grounded cognition
"A true thinking machine has to be grounded in a rich sensormotor reality"
上面是 Hassabis 原话。一个类似的概念是 embodied AI，即，要构建一个有智能的 agent，不能仅仅是通过软件，而是需要有一个身体，能够通过各种 sensors 感知自己所在的环境。不意外的，这个领域的研究人员很多在从事机器人的研究。DeepMind 则是选择了虚拟世界。但其背后的意思是一样的：智能是需要建立在与自己所在环境互动的基础之上。

4、机器学习打游戏

DeepMind 的一大成就，是开发出了能够自己学习打游戏的系统。这套系统的令人惊异在于，它能够通过观察图像，学会玩各种不同的游戏。请注意，这是同一个程序，自学了各种不同的游戏。这些游戏有着迥然不同的规则，视觉输出。在这个游戏的世界中，可以说 DeepMind 已经建成了 general AI（这是不是可以翻译成［通用AI］？）。

DeepMind 的这个成就，被发表于 2015年 2月 Nature 杂志（http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html）

5、Neuroscience-inspired AI
DeepMind 在决定研究方向的时候，会从人脑的结构中获取灵感，包括人脑的算法、representation、architecture。

6、AlphaGo 是如何养成的

首先说一点：AlphaGo 的养成过程中，并没有用到专业棋手的数据，而是从网上下载的业余高段棋手数据。具体步骤如下：

1、用网上下载的 10万局业余高段棋手对局，训练出了一个程序（叫做 policy networks, 咱们姑且叫它 P1 吧）。所谓训练，就是猜下一手棋，也就是模仿业余高手的对局。
2、让程序自己跟自己下上百万局对局，从自己的成功和失误中学习。这个训练结束后，成为程序 P2。P2 对局 P1 有 80% 的胜率。
3、再之后，P2 不再学习，而是自我对局 3千万局，成了一个巨大的数据库，里面包括了每一步棋，以及最后的输赢。再用这个数据库，训练了另一个程序，叫做 value networks，姑且管它叫 V 吧。V 的功能是判断此时棋盘上的局势，各方胜率。

AlphaGo 对局的时候，是 P2 和 V 并用。P2 通过棋盘上的情况，给出下一步走法的各种可能性，以及对于的概率；V 则来判断各种走法之后，盘面的形式。

Hassabis 有个很好的形容：
P2 给出最佳的几个走法，其作用是降低搜索宽度；
V 则是迅速给出局势的判断，其作用是降低搜索深度。（比如，不需要做大量的蒙特卡洛演算来判断局势。）

获取

Related Posts

精通Spring(罗时飞) PDF 扫描版[50M] PDF 免费下载

【感悟】互联网+与大数据学习心得体会

C++ Primer Plus（第五版）中文PDF清晰扫描版(70M) PDF 免费下载

发表回复