AI学术界与产业界中间隔了40步,而中科视拓山世光正在路上

从中科院计算所研究员到中科视拓(北京)科技有限公司创始人、董事长兼CTO,山世光走过了怎样的道路?

AI学术界与产业界中间隔了40步,而中科视拓山世光正在路上

氧分子网www.yangfenzi.com)讯 2016年10月15日的未来论坛科技创新峰会上,山世光结合自身经历,从学术研究与科技创业的角度出发,深入剖析了AI领域中产学研的转化问题,提出了“AI生态大舞台”的概念。《未来论坛科技创新峰会在京开幕 薛其坤首亮相,王灏郭洪出席致辞

尊敬的各位领导、各位嘉宾,下午好!我介绍的内容跟刚才黄晓庆先生介绍的内容不太一样。刚才黄晓庆先生从科幻的角度出发回到人类和地球,搭建机器人的网络;我们要做的事情是针对机器人,或者对各种智能代理的基本能力。如果他需要跟这个世界进行交互,需要跟人交互,就需要看人,看世界,认识世界上的万物。我们可以设想,任何一个机器人,或者以某种形式存在的智能体都需要看万事万物,这样才能更好地跟我们进行交互,并且为我们服务

人工智能在最近两年时间出现了非常热的情况,有很多的案例,比如AlphaGo打败人类围棋冠军。这个进步从学术角度,出乎学术界前沿科学家们的判断。因为在这之前,很多该领域的科学家们预期,机器打败人类需要十到十五年的时间,可是这个结果在两三年就实现了,所以这是跨越式的发展。第二个例子,大家看到自动驾驶,特别是辅助驾驶可能逐渐走入我们日常生活里。很多人知道汽车辅助驾驶或者自动驾驶更多是从特斯拉汽车出了两三次车祸之后,大家对这件事情有了更深刻的认知。在这个领域做了很多年的技术人员,在过去两三年,还认为自动驾驶或者辅助驾驶还是有比较遥远的距离,可是这样的结果在最近两三年真真切切走到了我们的生活里。很多特斯拉用户即使在北京这样的交通状态下,也会用特斯拉自动巡航模式比如跟踪前车的模式行驶。

AI学术界与产业界中间隔了40步,而中科视拓山世光正在路上

第三个例子,就是人脸识别技术的发展也超出了我们的预期。在三年前,我们这个领域大多数的专家,包括我自己做人脸识别做了十九年,还认为有一种场景可能需要十年的时间才能实现,更悲观一点认为这个也许不可能实现。这个场景是什么?就是我们国家二代身份证在卡内有一张非常小的照片,这张照片是102×126大小,它是张彩色照片。做这个证件的时候把这张照片压到非常小的存储空间,只有1K,因为当时存储还是比较贵的,这样节省成本。三四年前,我们认为把这样一张存在身份证里的电子小照片跟现场持证人比,判断是不是这个身份证的合法持有人,这件事情我们认为是不可能的。但是我们现在可以非常准确判断这个二代证持有人是不是这个人,准确度比人高十倍甚至上百倍,这也是超出了我们认知的跨越式的发展。更多AI解读:www.yangfenzi.com/tag/ai

AI学术界与产业界中间隔了40步,而中科视拓山世光正在路上

第四个例子,我们叫自动图题技术:给计算机一张照片,让计算机产生一句话描述这张照片有什么内容,类似老师给小学生布置一个作业,看图作文。几年前做这件事情的人在学术界都非常少,2015年这个技术出现了,很多学生界和工业界包括GOOGLE可以做到不错的结果,甚至可以以假乱真,所谓以假乱真是机器生成的描述和人写出来的描述是不可区分的。如果大家了解图灵测试,就会知道这是某种意义上的图灵测试,即计算机产生的结果已经和人产生的结果不可区分。

当然,应该讲这些技术进步的出现很大程度上都得益于深度学习技术。这样的技术在这两年可能是计算机整个行业里曝光度最高的技术,但是我想说深度学习并不是全新的创新,它的创新发生在大概上世纪八十年代末期,也就是人工智能第二次热潮时出现的多层神经网络技术。当时之所以没有成功,甚至导致第二次人工智能寒冬的到来,背后的原因是当时我们没有现在大量的数据,也没有现在高性能的计算机做大量的运算。当然,在那个时代我们也没有大量的从事相关方向的科研人员以集体的智慧发展这样的技术,所以出现了第二次人工智能的寒冬。这一次人工智能热潮跟前两次有很大不同,前两次人工智能热潮是基于一种承诺,也就是说有部分科学家他们预测人工智能可以很快得到解决,是一种预测,是一种承诺;这一次人工智能热潮确实基于技术跨越式的进步而出现的,确实跟之前是非常不同的

AI学术界与产业界中间隔了40步,而中科视拓山世光正在路上

但我们需要知道的是,这一次人工智能的热潮也并没有使得我们真的拥有科幻电影里看到的通用的人工智能,比如我们期望一套人工智能系统可以像人一样做所有的事情。比如AlphaGo,虽然它本身可以打败围棋冠军,但是让它下跳棋可能也不行。比如我们做的人脸识别程序,也不能做狗脸的识别等等。也就是说,其实这一次人工智能热潮背后技术的推动并不是通用性的。另外,它也不能自我迭代,这是一个非常关键、非常要命的缺点,也就是说它不能自我成长,所有的成长、更新、迭代全靠人类程序员给它数据,给它模型,给它方法,用机器训练它才能进步。所以它跟我们人类智能进化和智能发育的过程有非常大的差别。这点集中体现在机器人,虽然现在人工智能技术取得很大的进步,我们机器人看上去很漂亮很酷,但其实很多机器人连基本“看”的能力都没有。

大家也没有必要这么悲观,应该说AI技术的通用性在快速提高。比如五年前的时候我是做人脸识别的,很多客户找过来,说我们有一个需求,这个需求是在建筑工地上检测是否有一些工人没戴安全帽。五年前我们的做法是这样的:我说这个事情我们可以做,大概需要一年的时间,你给我提供几千张戴安全帽工人的照片,再给我提供几千张不戴安全帽工人的照片,我们拿过来这些数据进行分析,人工设置出一些特征,安全帽的特征是椭圆的,可能有红色、黄色的,可能上面还有一些纹路等等,我们会人工设计一些特征,把这些特征给一个分类器让它学习,什么样情况下有了这个特征就是戴安全帽的,什么情况下是不戴安全帽。寻找这个特征的过程是由人完成的,这个过程就会非常的慢,所以我们需要一年的时间。现在深度学习时代来了,我们的做法是:如果数据收集完了,比如有两万张戴安全帽工人的照片,和两万张没有戴安全帽工人的照片,我们大概可以用现成的、用来做人脸识别的模型,用这四万张照片一训练,大概也许一星期我就可以做一个程序出来,而且可以比较准确或者非常准确地判断一个人是不是戴了安全帽。从这个意义上讲,这一次人工智能的革命是由于深度学习技术的突破,使得AI技术本身底层方法通用性得到了很大的提升

AI学术界与产业界中间隔了40步,而中科视拓山世光正在路上

与此相关另外一个例子就是人脸识别。人脸识别有接近五十年的历史,在过去四十多年的时间里,人脸识别一直是很特殊的,和一般其他物体识别技术是很不一样的。现在深度学习时代到来之后,我们所有人脸识别的技术,目前能够做得比较好的,包括刚才我提到身份证一致性验证的技术都是完全采用了深度学习的技术。也就是说我们只需要有数据,就可以用一般物体识别的方法或模型,加上人脸的数据,可以很快得到在人脸上非常非常好的模型和算法。在过去很多年时间里,曾经每一个问题、每一个任务我们都需要有一个专家系统,请专家人工发掘或发现如何做好的方法论,现在的时代我们可以用很多共性的技术,而不同的更多的是数据。

从上世纪八十年代末期出现多层神经网络的技术,到从2006年到2012年的时间里,优化的角度出现一些变化,使我们可以实现非常深层次、多层次人工神经网络的有效训练。所以AI的基础设施,或者这一次AI热潮、深度学习热潮得益于四大引擎。其中深度模型就是第一个。第二个,我们需要大数据。大数据最得益于我们互联网,以及大量传感器的出现,互联网和传感器的出现。大量的应用,使得我们可以得到大量的数据,用来训练我们非常复杂的深度模型。第三个,高性能计算。我们有了GPU这样适合大量计算的设备。第四个往往是不被大家所提及的——智力众包。这一点在这个时代,尤其对于这一次深度学习能够迅速普及起到非常关键的作用。因为这一次的深度学习其实并不是那么容易可以直接,还是要有非常好的模型,这个非常好的模型得益于全球科研人员、基础研究人员,他们能够把他们自己之前已经学习好的,或者尝试了非常好的方法和模型贡献出来,把源代码开放出来,数据开放出来,使得我们可以做这样的事情。

AI学术界与产业界中间隔了40步,而中科视拓山世光正在路上

刚才看的是全球环境下。我们看中国在这一次AI热潮里是不是落伍了?我个人判断,至少我们并不在潮头。一个非常重要的原因,就是我们在基础研究方面,上世纪八十年代末期我们已经落后了,现在也没有赶上来。在基础的模型、深度学习的方法、基础理论和各种模型的设计方面,我们其实并没有冲在前面。第二个,AI的平台主要在美国,虽然国内现在也跟的很快。第三个,某种意义上讲,国际行业巨头也有一点寡头化的意味,Facebook、谷歌等等,由于他们掌握了大量数据、大量计算资源和大量国际顶尖人才,使得他们在某些方面远远走在我们前面。比如训练人脸识别模型,他们用800万人2亿张照片训练他们人脸识别,这样的数据对大多数科研界人员来说其实是不可能获得的。我们国内总希望我们科研人员既“顶天”又“立地”,其实往往我们顶天者不顶天,立地者不立地,反过来说也成立。我们往往会做一些空中楼阁的东西。回到我们今天论坛的主题,我们希望实现从基础研究到技术创新,到应用的顺畅转化,这一块儿我们并不是很顺畅。

我讲一讲我自己的故事。我自己过去近二十年的时间里一直在学术界工作,如果从纯粹学术界的判断还算做得不错,也取得了一些奖励。如果非常批判的看,我认为很多东西其实是空中楼阁。做了一些东西理论上讲是有用的,但是因为它不满足现实条件,使得它很难落地成为一个实际的应用技术。幸运的是,过去二十年时间里,我们通过跟企业合作伙伴合作的方式,也取得了一些非常好的落地和应用。比如我们的技术在国家公安部出入境管理局护照查重系统使用,这个系统里有4亿护照照片,每个新申请护照要跟所有4亿人比对,看你之前是不是曾经用其他身份办过护照。类似应用在各个省公安厅用来比对户口,看哪些人有多个不同的户口。还有我们通过跟华为合作,把人脸识别技术授权给他们,用于他们手机里。简单来说,在局部和小范围内做了一些“立地”的工作。这样一些“立地”的工作,对于我来说成就感和学术上的成就感是可媲美的,甚至有时候我想起来自己做的技术能在这样大规模的应用里得到使用,会感到更加的兴奋。

AI学术界与产业界中间隔了40步,而中科视拓山世光正在路上

另一方面,我觉得还是不够满意。不满意主要体现在:第一,在过去很多时间里,我跟工业界也有所接触,发现工业界和学术界的对接还是出了很多的问题。假设我们做满足用户需求的产品,需要一百步,学术界往往只走了三十步,我们国家中小微企业往往从第七十步才能走,再往前他是走不了的,或者出于成本的考虑他们是不愿意走的。中间出现了四十步大家都走不了的状态,出现了这样一个断腰的鸿沟,学术界和工业界之间有蛮大的距离。对于大企业不存在这样的问题,大企业建立自己的研究院,可以实现学术和工业之间良好的对接。

如何跨越这个鸿沟,一种办法,学术界要往下走,再走二十步,比如我们走到五十步,我们希望工业界再往上走二十步,从第五十步到第一百步。这个难度其实很大,我们过去跟企业合作过程中发现大家大多不太愿意往下走,因为体制等等原因,导致了这样的差异。还有一种办法,我们可以建立一些科技服务公司,这些科技服务公司可能更多源自于学术界,他们实现学界和工业界优势的桥接。基于这样的考虑,大家可以看到最近几年涌现出大量AI科技公司,这些科技公司都有一个共同的理想,就是希望在AI领域发现创造拟人的AI技术,使得我们生活更加美好,使得我们社会更加安全,这也是所谓AI生态大舞台的概念。我认为我们需要共同创造一个开源、开放的环境,共建AI时代基础设施。像我们现在工业社会有水电煤基础设施,包括高速公路基础设施一样,AI时代我们也需要一些基础设施,这些基础设施包括我们AI开发的平台,比如谷歌,开源了它的tenser flow,当然我们百度也有,开源了这些开发的平台。其实我们学界也开始担心像谷歌这样完全主导开源平台会带来很多问题,尽量创建一些不依赖于特定公司的开源平台。第二个,我们希望大家不断开源一些代码,使得我们在各个领域都有非常不错的开源的技术,能够被广泛的采纳。我前一段时间听到一个概念“火旋风”,意思就是我们在一个区域里一些火点密度足够大,会形成一个高达几十米的像龙卷风的火焰。对于人工智能,我们需要每个行业有人愿意开源他们基础的代码,使得我们可以形成整个AI产业的火旋风。我们希望有数据的开源,重视人才的培养,以及理性度量和报道AI领域的进步

AI学术界与产业界中间隔了40步,而中科视拓山世光正在路上

基于上面这样一些考虑,我本人联合我的学生,在今年8月份成立了中科视拓公司。我们开源了我们人脸识别的引擎,是个完全开源、完全免费、工业界和学术界都可以免费使用的人脸识别的引擎,包括搭建一套全自动人脸识别系统的全部代码,不依赖任何第三方的代码。同时,我们过去开源了很多的数据,包括我们建立了深度学习大讲堂,做知识的共享,把学术界最新的技术,找专门的人写,共享给学术界和投资界。同时,我们正在进行产学研合作AI基础人才的培养,尽量理性推进AI领域技术进步,同时希望回馈学术界,把前沿问题和数据,包括经费,回馈给学术界。

氧分子网(www.yangfenzi.com)是关注互联网生态圈的科技新媒体

·氧分子网http://www.yangfenzi.com)延伸阅读:

➤ 曹政:AI时代,大数据、机器学习和AI纯谈概念没意义要回归场景

➤ 高红冰:BAT时代终将过去,人工智能、大数据正催生新独角兽

➤ 曹政:推荐算法,机器学习,会将我们带向何方?

➤ 习近平:实施网络强国战略,建设全国一体化的国家大数据中心

➤ 从概念提出到走向繁荣:人工智能AI、机器学习和深度学习的区别

➤ 卡耐基梅隆大学邢波:为人工智能装上引擎—忆格拉丹东登山之旅

➤ 质疑AI泡沫:当我们谈论机器学习时,我们究竟在说些什么

➤ 达闼科技黄晓庆:从《星际迷航》到奇点临近,在科幻中遇见科学

分享给您的好友:

您可能还喜欢…

  1. 10月18日,微软人工智能首席科学家邓力在北京出席世界人工智能大会并发表演讲,回顾了最近十年AI的发展,包括难点和突破,提出了值得特别关注的动向,其中之一是美国白宫最近发布的人工智能报告,单独把deep learning列了一个标题。

    今天在这里向大家介绍微软的一些深度学习研究,也感谢组委会专门给我这个题目,叫我讲一下十年深度学习的历史。正像你们刚才听到(加拿大蒙特利尔大学)Yoshua Bengio教授讲的一样,微软在深度学习的开始阶段就做了非常大的启动。今天继续向大家介绍一下在这之后我们很多的进展,最后分享一下对未来的展望。

    今天的观众有相当多的投资人士以及技术人士,从业界来的。所以我向大家介绍两礼拜前《财富》杂志的一篇文章,讲了深度学习一部分的历史。趁此机会也向大家介绍这篇杂志文章里面给的深度学习的定义。从技术的角度从科学的角度来讲,我想再补充一些材料,使得大家对深度学习跟人工智能的看法有一些更深入的了解。

    这是《财富》杂志所讲的定义。

    这个定义基本是准确的。比如说定义人工智能,它包括一大串的技术,包括逻辑推理技术,包括机器学习技术,在机器学习的技术又包括深度学习的技术,在这里面主要的一块是机器学习。机器学习所解决的问题,是要用数据跟统计的方法或者神经网络的方法来解决现实生活中的任务(tasks)。在机器学习里面最重要的一块是深度学习,它也包括一大串的技术加上应用。虽然在这个文章里面只讲语音应用和图像应用,实际上还有一大串自然语言处理的应用。在这个演讲里面,我把这些新的应用和新的技术向大家介绍一下。

    刚才《财富》杂志的文章讲的深度学习还是从商业的方面来讲,大家能够看得懂。要是看Wikipedia,它讲的深度学习的定义比刚才的文章更深一点。我向大家介绍一下Wikipedia的定义。

    深度学习有三个要点:第一,这是一般的定义,不单单是神经网络,它包括各种各样的其它方法。它的精髓——好几个不同层次的非线性变换。第二,因为有好多层次,就出来了一个非常重要的问题——怎么样来优化这个多层次的系统。在浅层学习的模型里面,这个优化问题不是那么严重,因为比较容易优化。可一旦有了深层之后,这个优化就成为一个非常难的问题。这也是其中很大的一个原因,导致深度神经网络在1980和1990年代没能产生很大的影响。当时数据不够,计算能力也不够,而且当时算法也不够。差不多十年之前端到端的优化学习问题开始得到了解决——并不是说理论上得到解决,我只是说在实际算法上得到了解决。

    第三,这点更重要,尤其在语音识别和图像识别之外的更重要的认知领域的应用。在这种更高层次的应用情况下,深度学习更重要的是,因为它有不同层次的表达,它就能够把抽象的概念进行层次化的表征。在我下面讲的应用中我想特别是把第三个要点向大家描述得更深刻一点。头两个特性一般是大家在深度学习上看得比较清楚的,而且很多的文献讲得比较多。第三点的抽象性确实是深度学习的最重要的精华。

    关于深度学习十年的历史,我从《财富》杂志的文章抽取了一张表。理论上开创性的工作,神经网络的研究,可以追溯到好几十年前。我只讲讲近期的历史。1990年代第二次人工智能浪潮,主要也是由神经网络突破引起的,当时的突破只是在概念上的突破,神经网络的一些算法成为非常主流的算法,一直延伸到现在。但是应用上的大规模突破只是到最近Yoshua Bengio教授讲的前五年之前才开始。

    这是一篇非常重要的文章,多伦多大学差不多20年前发表的文章“wake sleep”算法。

    怎么让神经网络做非监督的学习?1990年代中,第二次神经网络热潮往下降,一直做不起来。大家往深层次的模式来想,那时候这种方法也没有成功,但对我有了非常大的启发。当时我在加拿大任教做时程上的深层次的神经网络研究,在1994年写了这篇文章。我当时做语音识别做了相当长的时间,一直比不上统计概率的模型。我跟研究生和同事写的这篇文章,做了非常强的分析,跟Yoshua Bengio一篇文章有点类似,当然,随着你的网络层次变得非常深,学习的困难就变得越来越大。当时用到语音识别上面没成功。但给我们很大的启发,关于到底要往哪个方向走。这是20年前的事情。在这之后,因为大家都认识到神经网络成功的机会不是很大,更重要的原因是当时统计的模型发展得非常快,另外还有机器学习的模型在那时候实际应用的效果远远超过神经网络,于是神经网络就慢慢像刚才Yoshua Bengio教授讲的那样削弱了。

    之后不久我从大学来到微软公司,当时我的一个团队做了深层的动态的贝叶斯网络,相对比较容易解释。但是有一大串的问题。十年前在深度贝叶斯网络问题现在已慢慢得到解决。深层次模型的最早的一个突破,还得归功于Geoffrey Hinton的一篇文章《A Fast Learning Algorithm For Deep Belief Nets》。这篇文章确实成为深度学习的开始之一:现在大部分的深度学习模型是一层一层网络不断从下往上,而这篇文章正好相反,不是往上,更注重从上到下生成数据,有点像“做梦”,你做梦的时候可以产生一些梦想。做的“梦”产生一些数据,你在醒的时候就可以把你所看到的东西抽象出来、总结出来,成为你感知的对象。经过反复的上下反复的过程,就可以产生一种非常巧妙的模型,而且对这种模型来说这篇文章介绍了非常巧妙的学习方法。

    我当时看到这个方法就在想这和我的深贝叶斯语音识别模型会有什么关系,能不能结合起来。因为没看很懂,就请他到我们的西雅图共事一段时间。2009年底搞了一个NIPS讲习会,将深度学习各种不同的方法在语音识别上的应用总结一下,那时已经有初步的结果出来,但结果不是特别好。所有的深度学习在语音识别上面都是聚集在非常小的数量上面,大概100万的数据量,非常局限。当时大规模的神经网络威力还没显示出来,这之后我们在微软花了大概一年多的时间发明了一些很有效的方法,使得深度神经网络加上隐马尔可夫模型,这三个不同的技术整合到一起就成为这组架构。这种神经网络同时跟其它的机器学习、人工智能方法联合在一起,很快就让深度神经网络在工业界上面的语音识别产生巨大的影响。这有点像AlphaGo,大概有三种不同的方法联合在一起,再次表明,能把不同的人工智能和机器学习方法同深度学习方法整合到一起确实是非常重要的。

    当时我们在学术界(我所在的微软研究院,也算学术界、工业界的一个混合单位)合写了一篇文章,三年多前发表的,成为深度学习在语音识别方面的经典工作。80%的内容和方法在这个文章当中写到的,现在工业界还一直在用。文章讲了深度神经网络对语音识别产生的影响,以及怎么把不同的机器学习方法包括深度神经网络的方法整合起来,使得大规模的语音识别得到进展。

    当我们微软公司把深度学习用到语音识别取得大规模成功的时候,微软研究院创始人Rick Rashid 2012年在天津举行的一次学术会议上当场演示实时语音翻译技术,第一次向世界宣布深度神经网络是一个非常强大的技术。他用深度学习做语音识别演示,几乎没什么错误,因为他非常配合,帮我们采集了非常多的speaker-dependent的数据。大规模的场合演示语音识别几乎没任何错误。另外,用机器翻译的方法,把识别出的英文文字翻译成中文,再用语音合成的方法产生中文语音。他用英文讲,他的中文声音就出来了,而且中文合成的声音跟自己的声色非常相像,当时产生很大的影响。

    之后我们写了很多论文,2010年到2012年写了不少,识别自然语音的错误率在1993年是几乎每个字都会错掉。那时候,美国的DARPA(Defense Advanced Research Projects Agency,美国国防部先进研究项目局,主要致力于美国国防高新技术的研究、开发和应用)第一次做这方面的研究,那时数据没采集那么多,1993年之后,DARPA每次投资语音识别的研究,基本上1/4到1/3的资源都是用来采集有标注的数据,之后语音的大数据就有了。这也是为什么深度学习在语音识别上是第一个成功的例子。

    2012-2014年这两年,微软花了很多的精力,特别是我们的同事和位于北京的微软亚洲研究院的同事合作,把Rick在天津用深度学习做的演示完全产品化,大家用Skype Translator就可以直接使用实时语音翻译技术。之前有媒体朋友用唐诗来试我们的系统,结果很有意思,每个字都翻译得很对,但是整个句子翻起来诗意就没了。语音识别字对字是好的,但是它不能够真正达到人的智慧,还没到有诗意的那个程度。

    下面再讲一下最近两年之内深度学习的进展。首先是语音识别的错误率继续下降,最近几年的进展更使得去年ImageNet图像识别的错误率降到低于人类的水平,这是微软亚洲研究院今年年初做的,还有看图说话也有很大的进展。

    最近一两年的AlphaGo,文章是在2016年发表,工作大部分是在2015年做的,最后产生最大的影响是在AlphaGo今年3月份打败世界围棋冠军,这里面很大的一个因素就是把神经网络和增强学习结合起来生成Deep Reinforcement Learning,用来加速Monte Carlo tree search,三者结合得到非常显著的成果。

    人工智能对话机器人也取得成果。以下内容也是我从《财富》杂志文章中截取出来的。

    现在很多公司都在发展客服机器人,而且还有很多其它的应用。这种应用在20年前大家都有了,我在大学当教授的时候就有很多类似的项目。AT&T当时帮助客户怎么付帐,那是唯一一个很成功的例子,其它的影响并不是很大。去年到今年差不多两年之内,大家看到AlphaGo的成功,而且看到深度学习在语音识别和图像识别上面的成功,都感觉到时间已经到了,这个重要的应用时代已经到了,我不想展开太多,大家看文章可以看到更多的例子。

    还有一个很大的应用:深度学习。大家看这篇文章后就可以感觉到深度学习现在从原来感知上面的人工智能,语音识别和图像识别已经进入到真正商业应用的领域里面。从研究的角度来讲,自然语言处理就是在一年之内得到飞速的进展。我昨天早上刚从烟台“中国计算语言学大会”回来,机器翻译已经完全采用深度学习的方法,它的性能、精确度大大超过20多年发展起来的基于统计的学习方法。IBM 20年前第一次把统计学习的方法用到机器翻译,当深度学习在语音识别成功之后,2011年、2012年深度学习就开始用到机器翻译上面。深度学习在阅读理解、问答等等应用上的复杂性要比其它那些应用到语音识别的深度学习方法大得多,主要因为模型不太一样,有新的alignment问题。一直到去年大家开始看到深度学习发展出一些非常巧妙的方法,已经战胜了传统20年发展的方法,当然它的错误率的降低和语音识别比起来还是没那么显著,但是它的历史也就两三年时间。现在整个机器翻译的领域已经完全转向深度学习,这个信息特别在中国自然语言处理方面比美国更显著。

    前两天烟台的“中国计算语言学大会”有许多演讲,每个题目都跟深度学习相关——深度学习跟机器翻译、深度学习跟问答、深度学习跟语法分析、深度学习跟情感分析,等等。我对中国的人工智能的希望是非常之大的。现在有哪些新的技术?有sequence到sequence的学习,有注意力模型,一个礼拜之前在《Nature》上面刚发表了DNC方法,做研究的话可以往这边看。

    未来展望,关于人工智能应用,在四五天前美国白宫出了个报告,听(俄勒冈大学)Thomas Dietterich教授讲,他也参与了这个报告的一些写作,美国白宫政府发出这个报告,跟中国推广的人工智能方向是相符的。深度学习作为一个非常大的标题列出来,这一点,今天早上跟Thomas Dietterich谈了一下,他承认对于很多做传统的人工智能的专家来讲确实是出乎意料的。

    关于Automated Science,把所有的物理科学材料用机器看一遍能不能得出牛顿定律?像以前伽利略用望远镜看到星星的运动,经过科学的研究,总结出来一些星球运行的定理,牛顿根据这些材料总结出牛顿定理,能不能用人工智能做出来?这是很多人想的问题。

    从研究和技术方面来讲,为了让大家看到将来的趋向或者将来有影响的研究和技术,我们要先看现在的深度学习和AI的方法有些什么样的局限性?要把局限性看懂以后,你们就可以知道用什么方法来克服它们。很大的一个局限性是,现在几乎所有成功的方法都需要有非常大量的数据,这种数据一定要输入输出全部匹配好,不匹配好的话,没有任何方法能够做得非常成功。下面还有一大串的局限,比如黑箱(black box),很多研究在破这个黑箱,走出现有神经网络的框架,要能够把以前大家所做的深度贝叶斯的方法加上一大串其它的方法整合到一起,就有望解决黑箱的问题。黑箱问题对我很重要,虽然有的研究人员觉得黑箱问题不是那么重要。同样重要的一点是,神经网络现在非常难把知识自动扩大,就像小孩长大,他的知识会一步步扩大,但现在的人工智能对这个能力几乎还没往这方面想。我跟很多研究人员交流,关于怎么才能把基于神经计算的深度学习跟符号逻辑连在一起,你把逻辑关系搞清楚就能解释所有的东西。

    下面用一张图解释最近的想法和工作,怎么才能把逻辑推理、70年代的人工智能跟现在的深度学习、自动学习能力非常强的神经网络结合到一起。现在这里有两个结构,下面一个是输入句子的句法树状结构。上面的树状结构是语义结构。用人工智能的传统方法来做,要写很多规则,但是要用神经网络方法来做的话就可以学习。用于统一两者的一个方法是建立一个等价关系,图状结构可以进入到神经网络,学习完了之后反向回到新的图状结构,能够把树状结构(或者图状结构)还原出来,这过程中的推理逻辑就可以自动等价与在神经网络上面实现。

    谢谢大家!