百度王海峰Quora精华:未来5-10年,NLP领域将会有什么进展?

近日吴恩达发文将在4月底离职百度。几乎在同一时间,百度也宣布进一步深度整合,将包括NLP、KG、IDL、Speech、Big Data等在内的百度核心技术,组成百度AI技术平台体系(AIG),并任命百度副总裁王海峰为AI技术平台体系(AIG)总负责人,同时晋升为Estaff成员,转向百度集团总裁和首席运营官陆奇汇报。首席科学家吴恩达离职或加盟Drive.ai 王海峰任百度AI技术总负责人

王海峰是自然语言处理领域的权威科学家,是该领域最具影响力的国际学术组织ACL 50多年历史上唯一出任主席(President)的华人,同时也是截至目前最年轻的ACL Fellow,也是唯一来自中国大陆的ACL Fellow。

百度王海峰Quora精华:未来5-10年,NLP领域将会有什么进展?

此外,王海峰博士还是中文信息学会理事、中文信息学报编委、中国计算机学会(CCF)高级会员、国家自然科学基金委员项目评审会评审专家组成员。

王海峰博士出席的媒体活动不多,但在Quora上比较活跃。AI科技评论根据王海峰博士在Quora上的五个精华问答整理成本文。另外此前王海峰博士在AAAI2017上应邀做了名为《百度的自然语言处理》的报告,全面梳理百度这些年在NLP领域的工作,在此也一并奉上。

王海峰Quora五答

1、从一名科学家转变为一个IT公司的总裁,你如何看待这种职业变化?

我对技术感到着迷,并乐于沉浸在研究工作里。我始终相信,科技能够改变世界。百度为我提供了一个理想的平台,在这里我从事的技术工作可以快速直接地让用户受益。这就是我一开始加入百度的原因。在百度最初的几年时间里,我领导了NLP、语音、图像、数据挖掘、知识图谱、机器学习、深度学习等多个团队。后来,我意识到伟大的产品将会连接技术与广大用户,反过来也会更加促进技术进步。伟大的产品,不仅需要先进的技术,还需要杰出的设计、优秀的营销和高效管理。因此我渐渐改变了自身的角色,从一个单纯的研发团队负责人,转变为管理层的一员。我如今领导的团队有3000多人,包括技术、产品和营销成员,他们都很年轻、精力充沛、富有激情。我们拥有着一个共同目标:用技术和产品改变大众日常生活。

当掌管一个大型商业团队的时候,我需要首先制定策略和目标,然后建立一个合适的执行团队。对于一个大型团队来说,良好的规则和文化,开始成为支撑和保证业务运行的重要因素。与此同时,对于科技领域的重大突破、用户需求的演变,以及整个社会的发展趋势,我都保持极大的关注。

2、未来5-10年,NLP领域将会有什么进展?

机器翻译、语义理解、问答和对话技术将会有重大突破。这些技术将会被广泛应用,并最终改变人与计算机、人与各种硬件设备、以及人与人之间的沟通方式。

这些技术的发展将得益于以下四个领域的发展:大数据、学习机制、知识图谱、推理和规划。

大数据。随着互联网的繁荣,数据量和种类都在高速增长。即便是非常传统的商业领域,都在开始把数据放到网上。一切都在网上进行,一切都在互联。大数据的价值将继续在物联网领域增长。

学习机制。学习机制的发展将会持续进行,这使得我们能从大数据中学习更多的东西。

知识图谱。通过大数据和更多强大的学习机制,我们可以打造更大的知识图谱,来对整个世界进行建模。

推理和规划。通过大型知识图谱,我们可以在推理和规划领域取得突破。推理和规划的能力将会把更多智能注入NLP系统中。

3、在NLP领域,中文和英文的主要区别是什么?

从语言学上来说, 中文与英文有很大不同。中文书面文本单词之间是没有空间的,中文的语法关系是通过单词的顺序来表达的。这些因素增加了中文在词汇、语法和语义层次上的模糊性,因为现代语言概念和原则更适用于英文,而非中文。

目前,主流NLP方法都是语言无关性(language-independent)的。这些统计学或神经网络算法,根据不同的应用,都更进一步优化了特定语言 。

比如,在2015年5月,百度发布了第一个大型在线神经机器翻译系统。基础的NMT模型就是语言无关的,并输出了非常好的翻译结果。为了进一步改善翻译性能,我们使用特定语言特征优化了翻译系统。

4、NLP技术如何应用于百度产品里?

在百度,我们开发出很多NLP技术,包括知识图谱、语义理解、内容标注、情感分析、生成、摘要、问答、机器翻译和对话系统等等。这些技术已经应用于许多百度的产品里,比如搜索、新闻流(news feed)和智能助理,每天为数亿用户服务。我们将以上这些技术通通整合进一个名为NLP Cloud的平台中。

NLP Cloud提供20多种NLP模块和方案,服务于百度产品。我们的NLP Cloud服务每天被调用1千多亿次。更多NLP解读:www.yangfenzi.com/tag/nlp

以搜索为例,典型的NLP模块,比如切词、命名实体识别、语法分析、释义都是基本特征。这些模块一直在持续优化并取得突破。另一个典型的NLP技术应用案例就是问答系统。一个高性能的问答系统需要对查询语句进行精准的语义分析,构建覆盖面广的知识图谱,同时对网页搜索结果进行全面分析。当用户在搜索框输入查询语句时,搜索引擎能够立马提供答案。很多用户也使用搜索引擎来查询相关性高的信息,帮助做决策。这种情况下,情感分析(也称观点挖掘)技术可以帮助提取多种备选观点,并将聚合的信息提供给用户。

另一个案例就是新闻流,这个领域文章质量是极其重要的。NLP技术可以帮助检测各种垃圾文章,比如谣言、抄袭等等;而文本分析技术可以帮助识别高质量文章,并生成最能够描述该文章的标签。此外,从不同维度描述用户偏好的“用户模型”也十分依赖于NLP技术。

总而言之,在所有跟自然语言相关的产品里,NLP技术都是不可或缺的。

5、在未来10年,搜索引擎将会如何演变?

今天当我们谈及搜索引擎的时候,首先想到的就是搜索框和搜索结果。而未来的搜索引擎将会是什么样子呢?我们并没有确切答案。但是我们乐于拥有更强大的搜索引擎,让我们在不同的场景、不同的产品或不同的交互界面里,能够看见、听见和感受到。搜索,将会无处不在。

第一点,更深入理解用户的意图、更深入理解内容,并将两者更精准地进行匹配,这将会使搜索引擎更为强大。用户的意图理解并不是依赖于单一查询语句,也还依赖于更广泛的搜索语境,包括查询session、时间、地点、设备以及用户性格特征。另一方面,内容理解涉及的范围也非常广,需要更好地理解每一部分内容的语义、语境、观点,以及从内容中提取的知识。意图与内容的匹配,将会涉及到以上提到的所有因素,使得在任何一个特定语境下,为每一个查询提供最好的结果。此外,搜索引擎将会变得更像一个“回答引擎”和“执行引擎”。大部分用户的查询,将会得到直接的回答或执行。

第二点,搜索交互界面将会发生很多新变化。除了键盘以外,其它输入方式,比如声音和图像,将会越来越广泛地使用。伴随更实际的语音和图像等技术,用户会十分青睐高效和便利的多模式搜索。特别地,自然语言交互将会成为搜索引擎的主流交互方式。用户可以跟搜索引擎“对话”,告诉它自己想要什么,这绝对比现有的键盘输入文字查询要方便和自然的多。用户也可以跟搜索引擎进行多轮对话交互。百度搜索已经率先应用了这类新型交互方式,提升用户体验。

第三点,搜索将会超越现有的搜索引擎的范围。搜索会嵌入各种产品当中。比如,搜索会是AI硬件产品的基本特征之一。未来,搜索将会包围在我们身边,无处无在。相应地, 我们也将重新定义什么是可以被搜索的。除了现有的被索引的内容,在未来,服务、物品、设备和数据都可以被索引,变得可搜索。

很长时间以来,搜索引擎在人们日常生活中扮演至关重要的角色。人们的需求决定了搜索引擎演变的方向,而技术进步则决定了这种演变将走向多远。

·氧分子网http://www.yangfenzi.com)综合整理报道

氧分子网(www.yangfenzi.com)是关注互联网生态圈的科技新媒体

·氧分子网http://www.yangfenzi.com)延伸阅读:

➤ 【nature】深度学习巨头看人工智能界人才迁徙

➤ 深度学习驱动智能搜索引擎,RankBrain革了SEO的命

➤ Google 重磅突破:相比LSTM,NLP 关键任务提升 20%

➤ 盘点百度Moments的干货|向海龙:搜索+推荐的双引擎驱动时代

➤ 出门问问李志飞:一个硅谷工程师在中国的 AI 创业“实践论”

➤ Google 认为搜索的未来取决于:语音、位置、上下文、个人信息

您可能还喜欢…

1 Response

  1. 文/毕啸南

    吴恩达的继任者。

    不难想象,在未来的很长一段时间里,王海峰都将被媒体贴上这样一个标签。

    但事实往往与人们的想象有出入。事实上,吴恩达加入百度,恰恰是接替了王海峰所奠基的AI基础技术中的一部分。

    网上流传的百度今年3月22日的内部通告显示,”王海峰于2010年1月加入百度,在2010-2013年期间,先后为百度创建了自然语言处理部、互联网数据研发部(包括知识图谱和互联网数据挖掘)、推荐引擎和个性化部、多媒体部(包括语音和图像技术)、图片搜索部、语音技术部等,2013年上半年,作为执行负责人协助创建了百度深度学习研究院(IDL)。上述这些开拓性工作,为百度人工智能发展奠定了基础。“

    可见,王海峰为百度AI做了奠基性工作。也正是因为在奠基AI基础技术中的突出贡献,他于2013年晋升为百度副总裁。2014年1月,因百度最核心的搜索业务的需要,王海峰转岗至搜索业务群组任副总经理。数月之后的2014年5月,吴恩达加入百度。加入之初,吴恩达主要负责百度研究院,而自然语言处理、知识图谱、语音、大数据等重要AI技术都不属于研究院。后来吴恩达的职责虽然有所扩大,但始终未能完整覆盖百度的全部AI基础技术。

    直到今年3月王海峰组建AIG,百度才形成完整统一的AI技术平台体系。

    在外界看来,吴恩达来到百度的原因之一,是想将自己多年的研究成果落实到产业中来;而他离开百度的原因,多少也和这三年间没能拿出足够亮眼的成果有关。反观王海峰的履历,2010年加入百度以来,除奠基AI基础技术,还执掌搜索、手机百度等核心业务,并打造了度秘、Feed流等新的明星业务,这些无一不是关系百度命脉的重中之重。

    相比吴恩达,王海峰是一个更加了解百度业务体系,在技术上更加注重实践的角色。百度对王海峰也更加信任——吴恩达在百度虽然地位崇高,但毕竟没有进入百度Estaff(百度最高决策层),而王海峰则在就任AIG总负责人的同时,成为了Estaff成员。这样看来,王海峰比吴恩达更可能成为百度在人工智能领域的那个“关键先生”。

    为此,《中国人工智能之路》选择了王海峰作为第一个对话对象,和他一同探讨人工智能在各领域可能给中国社会,甚至给整个人类社会带来的改变、福祉与困惑。

      在对AI的看法上,王海峰同样显示出了他注重实际的一面,“应用”与“落地”是这场对话的关键词。

    王海峰认为我们需要从两个方面来看待人工智能:

    一方面是从技术角度。他坦承现在的技术和他加入百度的时候相比已经有了很大进步,业界已经从传统的规则与统计方法转向了深度学习与大数据。他认为百度的优势在于“三位一体”——大数据、大计算以及先进的算法,这三个元素的结合将会对技术创新带来很大的改变。

    第二方面是技术的应用。他主张单点突破,逐步解决问题,最终达成一个系统性的创新。他认为现实的需求是一道复杂的应用题,很难采用某种单一的技术或方法来解决,“而要针对这个应用题,将很多技术综合起来应用。在实际环境中,将各种复杂问题综合解决,达成一个系统性的创新。”

    王海峰认为,在人工智能领域,技术是基础,但BAT这样体量的公司能否取得成功更多取决于商业化落地的能力、速度和最终的效果。

    在谈及“人工智能领域是否会形成BAT强者恒强的状态”时,王海峰承认,大公司的优势很大,“有平台的优势,人才的优势,包括数据等等也有一些优势”,但同时,他也认为创业者也有创业者的优势,“创业者未来可以看到很多机会。虽然说单个创业者都不大,但是总量多,所以一定会抓住很多未来的机会。由此可以产生新的大公司与新的巨头”。

    王海峰认为,目前人工智能产业正处在不断试错的过程中,存在一定的泡沫,但这是新兴产业发展中的正常现象。而随着整个行业的发展,行业走向逐渐清晰,这些泡沫就会被自然挤出。

    以下为对话实录:

    毕啸南:在你看来,人工智能到底是什么呢?大众其实并不了解它的本质。

    王海峰:人工智能的本质,我认为是让机器像人一样,可以去感知世界,更重要的是可以去思考。我通常会把人工智能的一些技术分成两个层次——感知层面的技术和认知层面的技术。

    比如说我们人有听觉,有视觉,相应的,我们如果让机器也具有听觉和视觉,这就是我们要做的语音技术和计算机视觉的技术,包括语音的识别、语音的合成、图像的识别、人脸的识别、视频的分析处理等等。这就是感知技术。

    感知技术,就是人首先去感知外界第一步要做的事情,但是这个并不是人特有的。我们知道很多动物也有听觉,也有视觉,甚至听觉和视觉比人还灵敏还强,那么人特有的是什么呢,是认知的能力。

    比如说人有语言,语言是人特有的,语言同时又是人类知识的载体,知识通过语言不断地传承下来。这些也需要计算机去掌握。掌握了这些以后,我们要让计算机实现对客观事件的认识。比如咱们俩之间,人和人还有一个互相的认知。这就是为什么我们除了做对客观知识的认知之外,还要做对人的认知。比如说我们做用户的画像。

    毕啸南:你刚刚里面提到了一句话,我觉得挺重要的。你说人工智能在你理解当中,本质是让机器具有像人一样思考的能力,但是这个观念也有很多科学家和业界的人士反对,“让机器像人一样具有思考的能力”,难道不是一件很恐怖的事情吗?

    王海峰:我们做人工智能,是让机器具有一定程度的思考能力,但并不是说让机器彻底变成一个和人一样的生物,或者说一个新的物种。而是说机器可以有一些能力,会比人更强。比如说这种存储计算的能力,获得大规模知识的能力,但也有很多能力,我认为机器是永远不会替代人的。比如科学家与工程师。在研究人工智能的过程当中,最后并不会把人工智能变成了一个对人造成伤害的技术,而是帮助人,帮助人们的生活变得更美好。

    毕啸南:你是从2010年加入百度的,见证了百度人工智能的发展历程。这七年当中,你个人也好,百度也好,对人工智能的理解有哪些大的变化?分几个阶段?

    王海峰:实际上还是有的,我说得再远一点,我是百度第二个十年开始的时候加入百度的。百度是2000年初成立的。百度成立之初就是搜索,搜索背后实际上一直就会有一些人工智能的技术,比如说今天我提了几次的自然语言处理,搜索从开始做的时候,就要处理网页上这些文字,要处理用户输入的query(查询),就要用一些自然语言处理的技术。

    所以说从百度成立的那天起,就会有一些跟人工智能相关的技术在做。而真正大规模开始投入,的确就是2010年我加入以后。我来百度之后做的第一个方向就是自然语言处理,现在在人工智能领域也是非常热门的一个话题。后来陆陆续续做语音、做图像、做深度学习、做大数据等等,做了很多,都是人工智能相关的这些技术。

    我们认知的变化是什么呢?我觉得有两方面。

    一方面是从技术角度。我刚加入百度的时候,是八年以前了,那时候我们更多是用一些相对传统的人工智能的方法,比如说规则的方法,一些统计机器学习的方法在做。经常是解决应用中的一个单点的问题,比如说搜索里我要解决query理解的问题,我要解决用户点击反馈的问题,我用一个方法去解决。而那时候数据量也没那么大,相对来讲是特定问题有限的数据在做,而随着我们整个工作的进展,积累的数据越来越多,然后计算平台也越来越强大,同时方法也在进步。我加入百度两年以后,2012年初,我们就开始去做深度学习的这种技术,更大的数据,更强的计算能力,再加上我们很先进的方法,这时候整个方法逐渐地就有一个非常大的变化。大数据、大计算以及先进的算法三个更好的结合起来,这是技术创新的角度发生了一个很大的变化。

    第二方面是对技术应用。刚才我说起了,早期更多就是单点解决问题,后来越来越多,变成了一个系统性的创新。比如说我们的搜索系统,后来基本就变成一个彻底的人工智能的系统了。另外就是在面对一些新的业务的时候,往往不是一个技术、一个方法,所能解决的。而是针对这个应用题,很多技术综合起来应用。在实际环境中,面向各种复杂问题,去综合解决,这样一个系统性的创新。

    毕啸南:一些观点认为,人工智能的核心算法、数据、场景等等都掌握在BAT手里,这会形成BAT强者恒强,或者愈强的状态吗?对于中小创业者而言,在AI这股浪潮之中他们的机会在哪里?

    王海峰:首先我承认大公司会有很多优势,有平台的优势,人才的优势,包括数据等等也有一些优势,所以大公司的确会在一些它看重的领域里做得非常好。但我们今天也讲到,这次人工智能的浪潮会带来一次工业革命,而这次工业革命会影响社会的方方面面,会影响各行各业,这远远不是任何一个公司所能完全垄断的。

    创业者也有创业者的优势,创业者未来可以看到很多机会。虽然说单个创业者都不大,但是它总量多,因此一定会抓住很多未来的机会,产生未来新的大公司和新的巨头。

      毕啸南:但是这些机会目前来讲并不存在的,我大公司看到了(一些机会),我不去做,这不大可能,对不对?比如,BAT现在说,我就是主要做无人驾驶这些领域,那些小的地方我不做了。这是不可能的。其实大家都还是全面布局的。

    王海峰:我的观点是这样,第一,任何一个公司或者任何一个人,都会有所不为,不会所有的机会都抓的。任何一个公司也没有实力说把世界上所有机会都做一遍,这个是不可能做得到的。第二,现在并没有人说这个机会未来就一定是一个特别大的机会,恰恰有很多不确定性,尤其是在开始阶段。

    毕啸南:所以人工智能领域现在就是一个试错的阶段,可以这么说吗?

    王海峰:对,不断地去尝试,一定是有的成,有的不成,然后又回到了我们前面说的,相对而言哪几个领域可能是在目前能够看得到的,会比较有可能性。但更多的领域一定也有机会。比如,现在也有很多做教育的创业公司,教育一定是个很大的产业。类似这样的产业我们能说出来很多。

    毕啸南:百度呢,你认为百度在不断分析和总结的过程中,可能面对的最大挑战是什么?在AI领域,或者说整个BAT面临的挑战是什么?

    王海峰:首先,其实刚才我说了一些人工智能我们要注意一些什么,比如说技术的边界等等。刚才我说的那些问题,对于像BAT这样的公司也是需要注意的。另一方面,BAT这样的公司有非常强的技术的能力,但我认为技术是基础,最终有多大成功还是取决于商业化落地的这种的效果和速度。我们一方面不断地夯实技术能力,另一方面则是探索这种商业化机会。

    所以我认为最终商业化落地的能力、速度和最终的效果,可能是成败的关键。

    毕啸南:我从旁观者的角度提一个问题,我在接触到这么多AI公司以后,会不会BAT这种互联网巨头,它庞大的管理体系和已经成熟的运行规则,反而是它创新的一种阻力呢,尤其是在管理上。

    王海峰:这个会有挑战,但是解决得好,它不会成为阻力,反倒会借助这个平台的优势,更好的抓住这个机会。比如百度公司整体的战略,一方面我们仍然继续夯实移动基础,另一方面,要决胜AI。

    实际上这两方面的确会有一些不同,但这个呢,相当于公司真的是能很清楚地认识到,把这个战略想清楚,然后这个布局布好,是可以既把我们已经传统上有优势的,继续做得更牢靠,另一方面会开拓出新的业务了。

    毕啸南:其实你之前已经有提及过了,也是对市场的一种反思和警醒。现在所有人似乎都在讲,一夜之间AI吹遍了中国大地,你认为目前泡沫化严重吗?

    王海峰:我认为是这样,任何一个新兴行业,在它发展的时候,都会不可避免的带进来一些泡沫,但这个泡沫本身并不可怕,随着这个技术的创新,产品的创新,整个这个行业的发展,慢慢这些泡沫就会逐渐地被挤出。但挤出的结果,不是一个灾难性的结果,而是行业逐渐地在发展成熟,包括整个用户环境,各方面用户的接受程度也都逐渐成熟。

    所以我认为泡沫是一个行业发展过程中必然存在的现象。但是没有关系,只要我们真正看清楚这个行业会往哪个方向走,逐渐往前走,这些泡沫自然就挤出了。

    毕啸南:所以投资或者创业之前,最重要就是看清楚,了解它,尤其是了解它的规律、特质和历史。

      《中国AI领袖人物系列专访》由知名青年学者、媒体人毕啸南深度对话中国人工智能官、产、学、研各界领袖,探讨人工智能在各领域给人类、给中国社会带来的福祉、改变与困惑。更多内容请收看由财新视频与澜亭资本联合出品的高端纪录访谈节目《中国人工智能之路》。

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>