邓力,微软人工智能首席科学家。世界著名人工智能、机器学习和语音语言信号处理专家,现任微软人工智能首席科学家和深度学习技术中心研究经理。他在美国威斯康星大学先后获硕士和博士学位,然后在加拿大滑铁卢大学任教获得终身正教授。其间,他还任麻省理工学院研究职位。1999 年加入微软研究院历任数职,并在2014 年初创办深度学习技术中心,主持微软公司和研究院的人工智能和深度学习领域的技术创新。



今天讲的题目是深度学习的三个模式,第一个模式是大数据来深度学习,第二部分就是怎样增强学习方法,把这个深度学习做的更好,因为题目有深度学习,我就希望深度学习的基本概念大家要了解。

在一开头就把深度学习这三个基本要点给你讲出来了,然后第一个就是原始定义,深度学习有好多层的非线性理解变化,这本身并不是特别重要,首先好多层的非线性层次的话,这跟大脑是有一定的关系,他就是使得从端到端的优化很必要,否则的话在深度学习之前的很多模型就比较的浅,端到端并不是特别明显,而且很大一部分深度学习的进展是包括怎样把这个深层优化解决,然后使它有非常大的进展,更重要的是好多层的非线性的变化的结果是什么呢,是在不同的层次上面把它抽象化进行层次的分类,这一点在所谓的图像上面显得特别的清楚,在不同的层次上面看到有的时候是比较浅层的特征,接近于最后的认知方面越来越明显,在语音识别上面我们也发现有类似不同层次的抽象。

实际上这种抽象对于最后的理解意义是更大的,可能最后会有一些例子来表示,这个是深度学习的主题,这次演讲的主题,给深度学习的机器进行学习之前一定要把输入匹配好,否则这个Y和X之间就做不了深度学习,他一定要跟输入系统在语音识别的情况下,你讲一个句子,这种学习方法很大的局限是什么,就越来越大之后,你这当中的价钱非常高,使得非常非常大规模的深度学习,并不可以那么如意的进行,所以现在很多的公司内部做深度学习,只是把数据量局限到三千小时、三万小时,然后再到三十万小时、三百万小时,也要按照现有的学习方法来训练的话,这已经到了一定程度,这个经济上就划不来。

还有一个叫做Reinforcement,另外一个就是非建构学习,这两个方向的学习是目前深度学习的更加活跃的领域,大部分是在几条线运用,很多成功的例子,能够为下一步的这两个更重要的深度学习做一下分析。

我这个题目还有一个AI,什么叫人工智能,就是人为造成的智能,所以从我们现在的角度来讲,就想把人工智能分成两部分,一部分是所谓的感知,那感知的意思是说什么,就是说就你所看到的这些现象,视觉的现象,还有语言的现象、音乐,跟这个人怎样把原始信号变到一些跟认知有关的过程,语音识别也属于认知,图象识别也属于认知,下面更重要的是叫做机器的认知,包括自然语言,机器认知很大的部分,就是怎样把符号进行变化,然后就可以形成知识,刚才你看到李教授讲的那些机器人,得到控制必须要理解你的物理过程,然后还有很大的一部分是包括人工对话,这一方面最近很多公司在做非常大的投入,包括微软公司也有很多有关的消息,所以我也想趁这个机会向大家介绍一下我们微软的广告,让大家稍微了解一下这个新的领域,这个领域完全是属于机器认知部分的人工智能。

我现在在讲之前,先把人工智能的运用跟大家讲一下,刚才谭院长也有讲过,首先让大家知道,深入学习在语音差不多是2010年的时候,2年之后获得成功,他们用的方法都是现在还没有用到将来可能有用的大数据量,只不过比他们之前大的数据的识别,然后包括翻译包括理解包括问答,现在第一步的成功我们已经看到,两年前左右,我们看到这个成功率,比如说翻译现在已经超过了传统的方法,然后在Games上面也有很大的成功,也起了一定的作用,那么下一步的波浪,这只是我的猜测,我现在有相当多的背景,比如说知识提取,现在完全改造成从以前的的方法变成到现在的人工智能方法,一些主要的厂商都在做,像百度也是往这个方向在做,现在大家好像还没有看到,实际上有很多人工智能都在里头。

下一步的成功,这只是现在很多很多研究在这方面,就是所谓的对话,就直接用现有成功的深度学习达到成功的效果,然后其他的今天没有时间讲,据我了解有相当多这方面的应用,就包括最近你们看的谷歌地图,在环境保护上面,而且在建设方面,已经有了巨大相当多的突破,那些报道已经人员节省了40%。

首先把这个建构深度学习在语音识别的应用给大家做一个回顾,基本思想就是用非常大量的匹配的输入数据,输入你要知道他讲什么,把这个准备好以后就丢到深度学习的机器以后,就一步一步往下讲,2009年差不多年底的时候,我们当时做了一个非常好的合作,当时我们到了微软来,然后把这个基本的深度学习给我们介绍了,因为当时我们在这之前几年之内,我们实际上用了非常强的方法,从语音识别的过程来讲,大家知道说他是一个非常强的多层次的结构,比如从语音深层次的角度来讲,首先这个概念比如现在要讲什么东西,几个毫秒之前我的脑袋就知道,或者昨天晚上就过了一遍,然后就不同的声音的元素是跟不同的控制的目标连在一起的,从这个里头可以控制机器,所以刚才李教授讲手的控制,然后嘴巴、舌头的控制,这个完了之后可以描述动态系统,那么运动完之后有一个原理,把这个运动转化成我的语言,怎样把他变成一个识别,这是一个很传统的方法,然后把它作为非常深的,我们做了4到5年的时间。

当时在2006年写了一篇文章,那个实际上跟我讲的非常像,他用的方法是什么,就直接是神经网络来把最后的生产出来,这个是非常有用的。

看了以后当时就觉得这个语音又到我们本身这上面,确实是有影响的,而且这个方法到现在还在进行。

我们做了两年到三年做这个方法,直接用很简单的神经网络,差不了多少,所以我一看这个东西肯定有学问,所以我们就继续把它加大,原来的计划是加大到一定程度以后再回去把语音知识用物理的形态,现在太成功了,大家根本不想回去,但是我想下一步不能做无架构的深度学习,这些是必要的。

经过了大概2年多的艰苦奋斗,包括研究院北京的员工我们合作,合作了以后呢,我们就终于在2012年我们提出一个很重要的,差不多2010年的夏天的时候,我们发现说如果数据量变的越来越大之后,原先的方法,这可以把它丢掉,为了保证说我们这么做是有比较好的理论根据,我们当时还做了非常强的分析,从理论上看出来大数据确实可以不需要那么复杂的,原理实际上很简单。现在所有的深度学习这一块基本上就不用当时所用的方法,而且你们看文献的时候,你们要看2012年之前的文献的时候都是合在一起,我们在2012年其实是分开的。

这么成功的语音识别方法,我们并没有很多的知识权保护,这跟大家的人工智能有点关系,所以他就把我们这一段讲的,讲的非常显著,我觉得这个也有关系。

深度学习2015年的时候他就成为我们一个非常好的合作者,这个是2012年的时候,今后两三年之后,2014、2015年也降到了,我就不讲太多,在一年之后成功之后,非常快,跟以前我们用的很复杂的方法来讲,他需要的要少多了,所以非常快,所有的产品都全部用深度学习来驱动,苹果跟亚马逊一般很少在外面去讲东西,从这个过程我们就知道,再过了一年以后,差不多2014年,Demo就完全转成为产品,你们可以用不同的语音,现在已经可以互相对话了。


下一步讲一下深度学习对Recognition的影响,对于图像识别会比他快更多,这个好像是2011年开始,因为我自己直接参与这方面的工作,所以你看在这之前的话差不多一直20%左右,2012年那时候,那个时候不完全知道大数据可以把语音识别淘汰下来,当时他们出来的时候,公布的时候是10月份,马上就说你看他是多少,当时把这个结果发给微软,我说你们看一下,我的同事也都说可能出了一些问题,也可能说这个是不够好,就是投机取巧,我当时一看就马上知道和语音识别一模一样,就是把模型做大。

这个是2013年的成立的公司,2015年就是几个月前,我们微软的团队做了这个,已经低于人的错误率,哪怕所用的神经网络是更深,这个深度在多少年以来一直到2016年,大家认识到这个深层是这么的重要。


在认知上面,我刚才讲的都是在感知上面的应用,在认知上面的应用,最近很大的一个突破是在机器上面,用记忆模型跟用注意模型,这个都是人的认知的技能,把这些模型用到深度学习上,让他能够解决机器认知上面的问题,大家对深度学习有一定了解的话,所以怎样把这个让很多的Short-Term,就变成Long-Term,就人脑的残迹的记忆,所以这只是一个数学的模型,,这个比较复杂,然后他是一个动态的模型,以前比如两千三千就被几百个给他替代掉了,有了这个之后就可以记一些相当好的信息,他如果需要,他可以马上忘掉,用什么方法使得这个模型把有住的记住,没用的忘掉呢,所以说我看了很长时间,然后两个礼拜前在1997年发明的这个模型,20年没有人用,首先非常复杂,我们两个都同意说这个模型是一个现象模型,跟人类的记忆是差的非常远,那么有了这个模型之后,可以做的很多的一些方法,包括机器学习,包括一些语音识别,然后理解,然后包括做人工对话,当然你们可以认识到说当他本身的这种神经的机制跟真正人的认知有这么大区别的时候一定有很大的空间让大家做更多的研究。

有了这个之后你就可以做非常有意思的东西,这个是一年多前发表的,这个东西为什么会翻译的这么好,他的精髓在什么地方,精髓就说访问进去英文出来,然后他基本上就是我访问出去,我到这里以后,这一层已经把所有的信息给他,另外也输入,然后把这个解码器的网络进行驱动。


下一步我就讲一些更深层的一些记忆模型,这个是Memory,最后记忆就可以出来,这个就不讲太多。增强学习的话可以把它理解成说就以前的增强学习旧的加上深度学习,把它加在一起就可以解决以前的学习解决不了的问题,要是没有深度学习的话,这个本身就解决不了这个问题,增强学习的方法是看长期的,开始的话也可能一个人打一个,那你看这个,一下子跑到上面去,就短期也可能会差一点,但是长期的话,在整个学习的过程中可以把这个长期的给保存,这种方法用到阿尔法狗使得他战胜高手。

这里有两个深度学习的网络,第一个是现在是哪一步可以下,第二个神经网络让你说下到最后好不好,阿尔法狗是把不同机器学习方法组合在一起,第一个神经网络使得他的宽度减少,这样就可以使得正在学习搜索方法在相当比较局限的时间内可以把所有主要的那些东西全部搜索出来。

再讲一下深度增强学习既定化的应用,这个不讲很多,但是最近我写了一篇,就是从高层上面机器学习角度来讲的,首先就说现在已经达到了一个局限,同时呢成为了一个新模式,人机交界应用上深度学习已经到这个领域来了,这个应用为什么需要用增强学习方法呢,是因为说我们交互过程中并不是说每一个对话每一个阶段就要得到什么,这个不可能的,真正你说要是用机器绘画,可能经过几轮,如果你想用这个机器干一些事情,让你买机票、订餐馆,你最后得到的信息是在完成任务之后,所以这个是非常非常符合的地方。


最后讲一下,这个是一个非常大的领域,我们也在研究,要是没有这个你到底怎么做学习,大家都没有想到,但是它的精华就不同的研究部门有不同的想法,然后我们的想法是就说一定要把整合人类的现有的知识包括语音识别训练,应该把这个深层学习的方法整合到一起,你们要做深度学习,我们现在很多人都是用,做不了,你首先就不知道怎么优化,我们想了一个办法。

我们做一个比较简单的实验给你看,你要是做神经网络,这个很奇怪,他旁边有一个很大的堡垒,我们研究的时候其中一个结果,让你看到说这个困难在什么地方。

最后一段话,从我们的角度来看,将来的AI会往什么方向发展,第一个就说我们的AI是一个一般式的AI,所以今天早上谭院士讲的话跟我是完全符合的,用一个最通用的,最后成功的AI一定是通用的AI,否则这个AI不会被整个业界广泛的采用,怎样把一方面的知识转化到另外一方面的知识,做一个非常深度的研究,而且必须要能够自动的获取并且产生新的知识,就使得新的知识能够把所有的知识融合在一起。我就希望整个业界能够把人工智能作为一种科学的研究来看待,而趋向就是广泛能够使用AI,语音识别AI跟图像识别AI还不一样,图像识别的深度学习你要有不同的结构,我们语音识别就有不同的结构,然后你要是阿尔法狗用的方法跟做下围棋和下象棋也是不一样的,将来应该有一个统一的构架,他可以解决各种各样的问题,比如说医疗,比如说看书,比如说小孩要高考,用一个AI就可以了,我今天就讲到这里,谢谢大家。

》》》采访内容

当前人工智能领域的技术研究和应用进展,有哪些是您意想不到的?AlphaGo?

邓力:基于我自2009年来对深度神经网络巨大学习容量的体验和理解,我对目前深度学习对人工智能领域的技术研究和各方应用的大规模的成功推动以及成就没有感觉有意想不到进展。由深度强化学习主导的 AlphaGo 以四比一战胜李世石并不令人惊讶。


您对强化学习和深度学习的结合赞赏有加,那么强化学习适合在哪些领域普及?

邓力:强化学习适用于控制和决策任何有阶段性的过程,好比下棋,机械机器人行动,和很多商业决策。应用强化学习时最好回报信号要清楚或容易定义,比如下棋。否则就要用内在动机来驱动强化学习,比如用于聊天机器人。方向之一是整合信息论与动态规划,这还属于研究阶段。大型状态空间以前对强化学习是个大难题,但现在引入深度学习之后问题就基本解决了。具有大型行动空间(比如把合成型的自然语言作为对话机器人的“行动”输出)的强化学习我们团队正在深入研究。用深度学习来解决大型行动空间要比解决大型状态空间麻烦不少。我们团队在这方面发了一些论文。


您如何看待深度学习与更多的其他方法(如贝叶斯方法)结合及前景?

邓力:目前基于神经网络的深度学习可以很好地同贝叶斯方法和生成式模型结合起来。优点在于能够赋予深度学习以解释性,也可降低深度学习对输入输出匹配的训练数据量的要求。如用到深度强化学习, 这种结合能大大提高学习效率,因为它让强化学习中的探索步骤更为快速而且探索空间变成更为广大。


除此之外,您认为哪些与深度学习完全无关的技术领域也值得我们关注?

邓力:命题逻辑和一阶逻辑的推理表面上看似乎与深度学习无关。近来用深度学习做逻辑推理出了不少很好的工作。我们团队在2016年ICLR有篇长文章。然而用纯符号的命题逻辑和一阶逻辑做推理要比用深度神经网络容易解释得多,好比计算机的高级语言要比汇编语言容易看懂得多。这种解释性在实际应用上很重要。但是纯符号的逻辑方法和模型比起深度神经网络难学的多。幸好在认知科学中有一套正在发展的理论,它把任意一个纯符号树状或图状结构(可以高效率且具有强解释性用在逻辑推理上)跟一个高维度的张量建立起同构。因为张量是最自然用于深度学习的数据结构,这种同构就让我们的人工智能系统能有效地实现结构到结构的符号映射(比如自然语言或计算机程序的输入输出),但同时又能直接用深度神经网络的方法去学习和优化这种结构映射(这包括复杂多步的逻辑推理)。

微软计划在人工智能领域成为领军者,能否介绍您的工作在其中的作用?您最近半年的主要工作进展在哪方面?

邓力:我目前用50%时间在微软美国总部的研究院管理和领导深度学习技术中心,这里有一支很强的技术和研究团队。另外50%时间在微软的商业部门任首席人工智能科学家,将人工智能和各类深度学习的技术和研究成果应用到人工智能产品和云端服务。最近半年我们团队的主要工作包括:

  • 将深度学习技术成功地应用到商业大数据的分析、预测、客户评分,等等,取得显著成果;

  • 利用深度强化学习推动多类自然语言对话机器人的研发;

  • 自然语言、视觉和知识库相结合的多媒态研究与应用;

  • 新型深度学习架构、算法、结构表征基础研究的进展。


微软做了不少人工智能的API提供给开发者,您是否认为人工智能会成为未来app的普遍属性?当前开发人员需要学习哪些人工智能相关的知识?如何上手?

邓力:微软的Cognitive Services (微软认知服务,其开发文档和教程可以参考官网:https://www.azure.cn/cognitive-services/)会提供越来越多的人工智能工具给开发者。不少已经可以从Microsoft Bot Framework 调用了。Microsoft Bot Framework 网站https://dev.botframework.com/ 有相当详细的信息。


关于微软Bots的理想,您认为它的实现需要哪些主要的技术积累?

邓力:具有强大功能的人工智能是Bots的理想愿景实现的最关键之一。主要的技术积累是以上讲到的深度学习,特别是深度强化学习。深度强化学习不但掌控每一单种Bot 的对话输出的最佳内容,更掌控各种Bots 之间的最佳协调和切换。

请简要介绍您在本次大会的报告主题《驱动大数据人工智能多种应用的三类深度学习模式》?

邓力:主要想讲三类深度学习模式——深度监督学习、深度非监督学习和深度强化学习之间的关系和区别。在哪种人工智能应用中选用哪种模式?为什么?洞见(insights)在哪里?想用我团队用过的成功(和失败)的例子来为大家提供一些洞见。

还想讲这三类深度学习模式跟大数据的关系。输入输出有匹配的大训练数据一般会让深度监督学习成功 (端到端的backpropagation 对有匹配的大数据的训练实在有效),但输入输出匹配成本很高。相反,无输入输出匹配的大数据成本要低得多。要利用比现有输入输出有匹配的大训练数据高出几个数量级的无输入输出匹配的大训练数据来训练深度学习系统,必须开发全新的深度非监督学习算法。如果成功,这会给人工智能带来一个新的里程碑。


能否再解释基于大数据的人工智能的应用局限,以及一些破解高质量的大数据人工智能的缺失的一些思路?

邓力:目前基于大数据的人工智能的应用局限之一在于依赖于深度监督学习,就是说要在有输入输出匹配的大训练数据之后才能使用端到端的backpropagation。不但成本很高,而且系统很不灵活,很难快速适应新环境。如果需要解决复杂的逻辑推理问题,基于大数据和深度学习的人工智能系统往往给不出理想的答案。这种依赖于深度监督学习的系统还缺乏常识和直觉。

破解高质量大数据缺失的思路包括以上讲的深度非监督学习和深度强化学习,以及新型的基于高维张量的结构表征和知识库。


哪些人适合听这个报告?需要什么预备知识?他们会有什么收获?

邓力:研究人员,研究生,ICT 公司和政府管理者。对人工智能和深度学习感兴趣的人。希望听完这个报告之后会对人工智能和深度学习有更深一步的理解,尤其在如何把理论用到实践。


最后一个问题,您如何看待国外与国内人工智能技术和应用的差异?在企业应用、人才培养上,国外有哪些好的经验值得国内借鉴?

邓力:国外与国内人工智能技术和应用的差异日趋缩小。我很多以前在美国、英国从事人工智能和深度学习的朋友都回国创业。

国外好的经验是注重创新,鼓励快速失败。

关注“智慧思特”,回复“邓力”即可以获得邓力博士此次演讲的PPT文件下载地址。

版权申明:本文转载自网络。

》》》更多精彩文章



欢迎投稿 职场/创业方向. 邮箱wangfzcom(AT)163.com:王夫子社区 » 微软邓力:驱动大数据人工智能多种应用的三类深度学习模式

    标签:

点评 0

评论前必须登录!

登陆 注册