江涛、翟吉博为你解读讯飞语音输入法、科大讯飞背后的故事

输入法火爆朋友圈,究竟有多火?!

恐怕连老罗自己也没想到,本是锤子新机M1和M1L的“相声”发布会,却意外捧红了一款应用——讯飞输入法。微博、朋友圈、新闻都被这个段子刷了一整天:

老罗在发布会上,是这么说的——

氧分子网www.yangfenzi.com)讯 就像老罗发布会上说的,“由于一个错字都没有,甚至显得有点假”,这就是“一个语音输入法正确率达到97%时的壮丽景观。”

老罗在新手机发布会上的“相声”,捧红了“讯飞输入法”,它以“一个语音输入法正确率达到97%时的壮丽景观”让这个输入法下载率瞬间飙升。这忙坏了朋友圈的小伙伴们,斗图,斗表情包,七大姑八大姨一起玩耍,交流无碍,盛况空前。

讯飞输入法不仅拥有超高的正确率,“甚至显得有点假”,更支持多种方言,及汉英、英汉的语音转换,老罗表示“我们要的不是快,而是快感”,“过去从手机换到电脑,感觉输入文字特畅快,现在从电脑到手机,感觉输入文字很憋屈。”

讯飞输入法与建于80年代的中国科技大学6系的”人机语音通信实验室“密不可分。1999年,一群大学生成立创业团队,科大讯飞公司成立,几经周折,2014年名字变更为”科大讯飞股份有限公司“,专业从事智能语音及语言技术研究、软件及芯片产片开发、语音信息服务及电子政务系统集成。它的总部位于安徽合肥,现总裁为刘庆峰先生,他曾获得2013年CCTV年度经济人物,2013年中国科技新闻人物。而科大讯飞公司也是获奖无数。

手机输入法我们见过很多,支持语音输入的也不少,为何老罗偏爱讯飞的语音输入呢?老罗是这样说的,“我们要的不是快,而是快感”,“过去从手机换到电脑,感觉输入文字特畅快,现在从电脑到手机,感觉输入文字很憋屈。”

再讲讲讯飞语音输入特点,略带口音的普通话也能识别,不可抗因素也能化解,即使感冒了,嗓子哑了,语音识别还是100%!它还支持粤语、上海话、东北话、四川话、闽南语、客家话等19种方言语音输入,感兴趣的小伙伴可以说点家乡话试试:“随声译”功能,说中文直接出英文。

江涛、翟吉博为你解读讯飞输入法、科大讯飞背后的故事

翟吉博, 2001年就读于上海交通大学电子信息与电气工程学院联读班,2007年硕士毕业。毕业后,翟吉博进入摩托罗拉中国研究中心(上海)做模式识别方面的研究,2009年加入科大讯飞。2010年,讯飞输入法项目启动,翟吉博作为该项目的产品经理工作至今。

上海交通大学小编第一时间联系上翟吉博校友,作了一个独家专访,让我们来听听讯飞输入法和交大人的故事!

小编:吉博,您好!能否介绍一下输入法的研发过程?

翟吉博:当初的情形是这样的!那我说一下讯飞输入法这个产品诞生的过程吧。2010年的时候,当时我在讯飞研究院,我记得iPhone4发布的当天晚上,我跟我上级,就iPhone4做了一个讨论,我们认为,iPhone上基于触屏的全键盘输入体验,不太好。原因在于屏幕太小,而手指又像胡萝卜那么粗。经过脑暴,我们考虑到,把讯飞的语音技术结合到输入上来。完了我就自己动手开始做,很快就出了一个demo,因为我原来是做过手写识别,还有拼音的这个技术,所以这个demo也包含了语音手写还有拼音的功能。这个demo拿出来给上级看,他觉得,不能仅仅是做个demo,后面我们就对市场进行研究和分析,写了一个立项书,而且在公司层面也获得了通过。我们组建几人的小团队在杭州封闭开发了三四个月,然后在10月28号,我们对外发布了第一个版本。这一段经历特别像一个创业启动的过程,所以到现在我的印象还是比较深刻。

小编:您觉得读书期间所学的,和您现在从事的工作相关性强吗?或者简单说,您读书期间有接触过语音识别的内容吗?

翟吉博:从知识的层面来讲,相关性不强。但是从思考问题的角度、深度,还有学习的方法等这些方面,我觉得在交大读书期间打下了一个很好的基础。

小编:有没有哪一门课程您觉得比较有用,建议学弟学妹们一定要好好学?

翟吉博:我觉得越是基础类的课程越重要,特别是在本科前两年的课程,对于培养自己的思考和学习能力非常重要。

小编:从职业发展的角度,您对学弟学妹们有何建议 ?

翟吉博:关于职业发展我的建议是,先从了解行业入手,找到自己感兴趣和看好的行业领域,另外最好是去从事前沿一点和有创新增长潜力的方向,在发展路径上,倒是建议要,耐得住寂寞,不追求一开始就有很高的起点,但需要设定不断突破和成长的预期。

小编:讯飞大热,接下来您有什么规划?

翟吉博:关于此次讯飞成为热点事件,更多的也给了我们在后续产品和市场工作上的一些启发,值得再深入的去思考。

翟吉博:最后要感谢母校对我们的关心和支持,祝各位学弟学妹们学业有成!

江涛、翟吉博为你解读讯飞输入法、科大讯飞背后的故事

雷锋网:语音输入的技术突破有多大?给详细讲讲。

翟吉博:从这几年发展来回顾,语音输入技术可以分为几个阶段:

第一个阶段。在我们,10年刚推出的时候,整个的识别率是初步的达到了使用门槛,字正确率只有70%多还不到80%;

第二个阶段。那随着用户越来越多积累了大量的数据,通过大数据的训练来驱动,使得整个的识别效果稳步的提升,能够到达90%出头。

第三个阶段。2012、13年的时候,那我们,使用了深度学习算法之后,再结合大数据的训练,使得正确率又有了,更大的突破。

其实,老罗发布会上宣传了97%这个数字,我们达到这个数字其实已经有一两年时间了。

雷锋网:讯飞的语音输入强在哪儿?

翟吉博:首先要说,深度学习算法出来并相继普及之后,对于安静的环境下,日常的句子,大家的语音技术基本都达到了实用的水平。讯飞相对深入的地方表现在,三个方面:

第一,对于口音的适配。我们知道,在中国说普通话的口音是非常广泛的,那对于不同的口音语音识别的效果,影响很大,讯飞对于各地的口音都有很好的适用,而且对于一些典型的纯正的方言也能够识别;

第二,对于抗环境的干扰方面。比如说在开车的时候,如果开着窗户,那个噪声是非常大的,讯飞是目前通过国际大车厂测试唯一达到实用水平的,技术提供商;

第三,对于网络的依赖方面。我们能够提供在线和离线无缝结合的方案,而且在离线的识别上面,也达到了很高的识别效果。

——————————————————————————————

科大讯飞副总裁江涛口述历史:一家本土技术公司的十年侧影

科大讯飞的创业经历,是个典型的中国技术创业故事。
从技术到商业,从实验室到市场……
这个故事提供了一个路径样本,
也是那10年本土技术商业史的一个侧影。

本文是科大讯飞副总裁江涛口述实录。科大讯飞的创业经历,是个典型的中国技术创业故事。从技术到商业,从实验室到市场……这个故事提供了一个路径样本,也是那 10 年本土技术商业史的一个侧影。

昨晚的锤子手机发布会上,罗永浩现场演示了科大讯飞的语音输入,几乎一字不差的识别结果惊艳全场。老罗随后在发布会上对科大讯飞毫无保留的溢美之词也让不少人意外:这个很多人听说过的产品,真的值得那么高的赞誉?

2013 年底,在一次拜访科大讯飞总部时,我们有机会听到科大讯飞副总裁江涛讲述了很多不为外界所知的老故事。

1. 讯飞前传

讯飞的前传离不开“人机语音通信实验室”,这是中科大六系(也就是电子工程系)的实验室,八几年就成立了,导师叫王仁华,是中国语音界非常有名的泰斗级老教授。九十年代,国内做语音都会首推“二王”,南边是王仁华教授,北边是清华大学的王作英教授。

我是 1993 年进科大的,当时科大的学生都管导师叫“老板”,因为他们都跟着老师在外边接活做项目(注:时代背景为知识分子到校外私企的打工经商潮)。

王老师跟其他的“老板”差别在什么地方呢?这个实验室也在外面接活,也给大家发点小钱,但除了有一拨人接活挣点小钱之外,他还保留了一支相当精锐的部队,做国内最前沿的基础研究,就是语音合成、语音识别编解码相关的研究;第二个不同是,他不像大部分的老板——论文出来了自己的名字写在第一个,然后才是学生的。在王老师这里,这个模式如果是你先做的,就把你的名字写在第一个,把年轻人推出去。

庆峰(注:科大讯飞创始人刘庆峰)1990 年进科大,到大五已经是非常强的主力骨干了。王老师把他的学生分成两拨,一拨是挣钱的,一拨是搞研究的,刘庆峰就是搞研究的头——虽然只是五年级的本科生。

1998 年,在国家 863 比赛中,庆峰牵头拿了第一名,当时主要聚焦在语音合成技术。863对语音合成技术的评测标准是:播音员的标准是 5 分,普通人发音是 4 分,3 分是可以接受不反感。当时,在国家 863 多少年的比赛中,第一次有了3.0分,就是科大的代表队。当时一起参赛的还有很多代表队,比如清华、北大等等。

这个奖也给庆峰很大的鼓舞,觉得应该做点什么,把这个研究成果进一步产业化。当时李开复在微软中国担任副总裁(注:1998 年 7 月,李开复在中国创建并领导微软中国研究院,现为微软亚洲研究院),准备把微软奖学金给庆峰,但这个奖学金是有条件的,必须到微软做一个月的研究。当时庆峰已经准备创业了,就说没法去一个月,后来微软的条件一降再降,最后降到过来两周也行,但他最后还是拒绝了。十几年之后,一次讯飞语音云开发者大会,李开复也到了现场,我们邀请他的时候,他很感慨地说,庆锋是这么多年来唯一拒绝过微软奖学金的人。

当时还有一个背景,国外 IT 巨头纷纷开始涉足中文,1998 年,IBM 发布了语音系统,翌年被评为科技界十件大事之一。第一次在电脑上不用键盘就可以输入,大家都觉得这是一个很革命性的事情。在 IBM 影响下,英特尔、摩托罗拉、东芝等国外 IT 巨头都建立了语音研发中心,当时科大声学所、语言所、清华等等一些学校语音专业的学生,一毕业就被挖去,这些国外公司基本上把中国语音市场瓜分了。

还有一个背景必须提,就是大学生创业潮。九八、九九年团中央呼吁大学生创业,CCTV 2 还专门在 1999 年春节前后拍了一期节目,请了很多大学生创业者去讲他们的故事。这是九八、九九年那一拨创业潮,但是后来我们上市的时候,一百多家企业就剩两三个了。

这就是九八、九九年刘庆峰的状态——技术上很牛,研究生刚毕业,拒绝了微软,在大的语音产业第一次浪潮和大学生创业潮,以及国家863奖的激励下开始创业。

刘庆峰

2. 创业

创业的第一步不是马上成立一个公司,当时庆锋把我们忽悠去,讲也很也很简单:我们要把技术做好。

我们先找了中国银行福建省分行下面搞的一个企业,这个企业的董事长是 1996 年的“全国十大杰出青年”,1997、1998年的时候做到“电子百强”的前四十几名,也算规模比较大的企业了。我们跟他合作,他们出钱在中科大办一个联合实验室,全称叫“中国科大中银天音智能多媒体实验室”,刘庆锋就是这个实验室的主任,也是中银天音公司的总工。相当于企业出钱搞一个研发成果,去市场上推广。

当时的办公楼是在五里墩立交桥下面一处三室一厅的民居,所有的电脑围成一圈,上面吊一个电扇,夏天一边擦汗一边擦键盘。后来条件稍微好一点了搬到科大里面,但场地还是很有限。

因为做语音要请一些播音员来录音,有一次请了一个播音员来录音,正好到中午大家就约他一起吃饭。那时候我们实验室就十多个人,吃饭就从外面的小饭馆端几个钢筋锅进来,每个锅里面一种菜,也没椅子,就站着吃。把这个播音员吓一跳,觉得这哪是搞研究的,就是一帮民工。

这个实验室运行时间也不长,正式挂牌是 1998 年夏天,到 1999 年春节前后,福建中银集团经营上出现了困难,连实验室员工的工资都发不出来,情况还是非常严峻的。当时,实验室主任刘庆峰并没有召集大家开会说对不起,中银集团没法发工资,他背着大家偷偷四处打借条,借钱给我们发了工资。他当时仅仅是主任,也只是“打工仔”,但为了这个团队不散伙,自己借钱发了工资。借钱的时候他心里也受到强烈的冲击——我要有自己的公司,把命运掌握在自己手里。

所以后来他成立了硅谷天音,全称叫“安徽硅谷天音科技信息有限公司”,是家注册资金 300 万的小公司。实验室的人都掏了一点钱,再从本地的投资方“忽悠”了一点钱就开始起步了。

硅谷天音正式运作是 1999 年 4 月,但真正挂牌是 1999 年 6 月份,但是 300 万资金真是没多少,基础研究投入很大,到年底就基本花完了,必须要融资了。很幸运,我们在 1999 年年底融到了第一笔 3000 万的投资,融资的同时也正式改名为科大讯飞。

当时的投资方也不是多牛的大 VC,而是安徽省的美菱集团、安徽省信托投资公司,还都是国企,但是因为在本地好沟通,加上当时地方政府也觉得这拨科大的优秀毕业生留下来不容易。拿到这 3000 万,这股气就过去了。更多科大讯飞解读:www.yangfenzi.com/tag/kedaxunfei

这里有个小故事,300 万的注册资金到年底就基本上快干了。当时有一个同事的显示器老是坏,有一天他在过道里把庆锋拦住,说想换个新显示器。庆锋犹豫了几秒钟说,好吧,那就买一个,这个同事又补了一句,我想换个17寸的可以吗?庆锋就说了,现在帐上就剩七万块钱,你看着买吧。最终他也没换,每天就在煎熬的过程中,一直撑到 3000 万融资到账。

拿到这 3000 万,刘庆锋首先做的就是资源整合。做语音,科大是一拨,中科院声学所、社科院语言所,还有清华都有做的很不错的团队。语音又是一个典型的交叉科学,涉及到声学、语言学、计算机工程处理等等,其实每个研究机构都有他相对擅长的环节。

他当时就拿钱跟这些研究机构都成立联合实验室,而且给这些实验室投资,给他们股份。他还把中银天音时期的专利知识产权买回来,当时真是不惜血本。通过这些机制,科大讯飞把做语音的源头资源给整合起来了。这是最初的资源整合,之后我们整合的资源也越来越多。

3. “讯飞 Inside”

融到钱后,就可以大手笔干活了。我们开始追逐自己的梦想,第一次做了 To C(面向消费市场)的产品——畅言软件。这是一款针对 PC 的软件,通过语音既可以有指令的操作,又可以有文本输入,我们第一次把手写输入的随意性和语音输入的快速性无缝整合在一起。

这个软件的“成功版”卖两千块钱一套,我们在全国十几个省打广告,然后招商。把代理商请到合肥来,跟他们讲这个软件有多好多好,我卖你一套一千块钱,你卖两千块钱。这个代理看着觉得挺神奇的,就各自囤了一些货,但后来很快退回来了,一是不好卖,二是很多盗版。第一年卖了一千多万,但大部分都积压在代理商那里,搞的代理商叫苦不迭。

这是我们第一次 To C 的努力。当时可以做事情的时候,我们就想改变人使用计算机的习惯,现在看来,这显然是超越我们的能力了。一方面,PC 已经比较好地解决了人机交互的问题,对语音的需求没那么迫切,而且换一台电脑就得重新训练;其次,商业环境也不成熟,那时候没有电子商务,得靠一级一级的代理,最后一级一级加价,价格就比较高;同时,盗版又大面积出现。从技术、需求、商业环境上,都还不太成熟,所以叫它蹒跚的起步。讯飞的成长中,我们犯了无数的错误,这是其中之一。

讯飞商业模式第一次形成叫“iFLY Inside”,2000 年,我们在深圳参加高交会,华为的工作人员看到了我们的语音合成系统,觉得比他们的好,就把我们带到蛇口的那个楼里,十几个研发人员围着问了一个下午。后来,华为就决定跟我们签约了。

签约后,华为开始测试我们的语音合成系统。我们在家里测觉得挺好的,结果到华为一跑,只能撑几分钟。华为给了我们很大的压力,在陈涛副总裁的带队下,我们最核心、最骨干的一些研发人员接近二十几天吃睡都在华为,饿了就吃点东西,困了就在地上铺个东西睡会儿。我们那个时候才知道电信级稳定性的要求。

修改、优化后提交还是不够,华为在现场又发现了问题,需要反复的修改,这个过程算是“脱了一层皮”。从实验室状态的产品,在稳定性、工程化上面,如何满足真正大规模商用的要求,也是我们第一次面对。

但是这一层皮脱掉了以后,以后再有谁测我们的系统,我们从来就没倒过。除了华为,当时的中兴、神州数码等等国内做智能网、呼叫中心、业务系统的,需要用到语音引擎都买讯飞。

我们把语音的核心能力提供给合作伙伴,他来做具体的应用,这是“iFLY Inside”模式的确立。

刘庆峰

4. 弯曲的直线

讯飞犯过无数的错误,走过无数弯路,后来我们把它叫做“弯曲的直线”。

现在讯飞有两个事业部,通信增值和移动互联。当年有一个叫“有声Email”的项目,我是总负责人,跟上海电信合作,在上海热线的邮箱系统第一次实现,当时觉得自己还挺了不起的。

那个时候移动互联网还没起来,电话用户比互联网用户多得多,“有声Email”就是用电话来访问,让用户听互联网上的信息。这个还真卖了一套,但就是没人用。在做这些产品的过程中,我们也慢慢的知道了该如何做产品,如何做工程,如何研究用户需求。

还有个项目叫“老师家长一线通”,希望通过智能的电话语音系统,解决老师和家长之间的沟通问题,现在有很多 App 也做这个,包括校讯通,但当时产品出来同样没市场。不过,这支团队后来进一步延伸出了通信增值事业部。

2005 年,彩铃从韩国引入中国,迅速火了起来。当时运营商最困扰的是,电话热线里面只能提供“1” 到“9”的 9 首彩铃让用户来选。他们就找我们问,能不能用语音选彩铃。

我们就做了“声动彩铃”这个系统,在安徽一试点成果非常好。当时,安徽的运营商就给我们推荐了几个单位,后来联通总部看到这个系统的成果,就进一步下文,说这个产品应该怎么用。这样,我们终于有了第一个能够覆盖全国的业务。

它逐渐在全国形成了规模效应,后来中国电信得到了 C 网,开始做彩铃的时候,也是全面用我们的系统。中国移动也是。

基于音乐和彩铃相关的语音业务平台,很多都是由讯飞来做。基于讯飞的语音核心技术之外,我们把音乐方向的应用真正做起来了。

这几年,我们的通信增值事业部在原来音乐语音搜索上又进一步做了很多东西,比如个性化彩铃、基于特色的语音合成技术,可以让彩铃随时的更换。还有爱吼网(一个在线K歌的平台)。

移动互联方面,包括输入法,我们的基础团队也是从这边延伸出来的。2002 年到 2005 年,我们把它叫做“弯曲的直线”,走了无数的弯路。

“弯曲的直线”的另外一面是教育产品。我们教育产品线已经很长了,早期做的产品叫“会说话的书”,这是 2002 年开始做的重要项目,我们当时对它抱了很大的期望。在书底下有一个存储装置,包含语音合成芯片,可以把书的内容读出来,适合小孩。

语音合成怎么用?当时想的就是大家除了看书以外,还有听的需求。这两款产品费了牛劲,因为是我们第一次做硬件产品。现在看来,这两款产品巨土,工业设计水平都比较低,包括用户体验也都不太好。

但是,这次项目之后保留下来的教育产品条线,现在已经有几百号人、几亿的销售额,可能到未来会有几十亿。要是当时没做现在看来很疯狂的傻事,就没有今天的发展。

5. 联想和复星

2002 年到 2005 年还有一件比较重要的事情,融资。讯飞第一笔融资是本地的国企,要进一步发展,得有更好的资本平台。当时我们比较幸运地引入了两个战略投资者,联想和复星。柳传志在 2000 年把联想一分为二,一半交给杨元庆,一半交给郭为,他那时候则开始筹建联想投资。当时他在全国投了一百家企业,第一家就是讯飞。

联想给讯飞带来的东西确实很多,签约仪式当晚,柳传志跟庆锋有一次长谈,那次长谈留下了很多记忆,庆锋在他的管理实践中一直强调,比如说既要有理想,又不能理想化。另外一家大的投资者是上海复星,我们的投资是由浙江广信来持股的,一度拥有百分之二十几的股份。

2002 — 2005 年期间,我们也开始做系统集成业务,现在每年有近亿的收入,当时如果不做这个业务,讯飞也活不到今天。做系统集成相对容易,给讯飞带来了一定的现金流,我们在本地也逐渐有了一定的影响力。2002 年,我们搞全国巡展,联想跟我们一起,现场怎么搭,礼仪怎么排,(联想)手把手教我们。

复星又是另外一种风格,这两个公司正好是中国民营企业非常优秀的两种截然不同的代表。联想强调管理,聚焦专业化,复星的口号则是专业的多元化。复星最大的能力是对大趋势的判断,在投讯飞的时候,他们旗下有七个上市公司。

复星最早做医药起家,后来判断未来几年房地产有大的发展,就果断把赌注押到房地产上,之后又很快地判断到下一个增长,投了几个钢铁上市公司。这种大手笔的资产运作,对于整个产业大势的判断能力,对刘庆锋的影响也很大。

联想在管理上很细致,每个月投资经理都会来,但复星的投资经理一年来一次,有一次,他们的 CEO 过来跟庆锋说,你们可以稍微给自己多发一点工资,当时讯飞还在亏损阶段。所以,他们的关注点在这儿。

在讯飞的亏损阶段,这些战略投资者还是比较重要的。当时我们也在持续反思,为什么我们老没能兑现他们投资进来时的承诺,直到 2004 年才实现盈亏平衡。在这之前,每年总是画一个饼,完成几分之一,第二年再画一个饼,完成几分之一。相对来说,这些投资者还是比较有长远的眼光。

在这个过程中,我们的战略目标就逐渐清晰:从全球最大的中文语音技术和语言技术提供商,发展到全球最出色的多语种技术提供商。

这个过程中,路线、战略制胜,我们强调的是有可能形成“喷泉效应”,领先地位不容易被资金和人力投入所复制的创业型企业,才有可能发展为基业常青的企业帝国。我们通过什么路线来达到这个目标?引用任正非《华为真相》里的一句话:“股票、房地产起来的时候我们也有机会,但是我们认为未来的世界是知识的世界,不可能是这种泡沫的世界,所以我们不为所动。”

不光要有具体的目标,还要有明确的产业理念,正如“红军之父”托洛茨基讲过,孙中山跟其他军阀不一样的地方是他不专门搞军队,他有自己的理念,有明确的政治和宣传工作。也就是说,有具体的产业理念才能够真正的走得远,而不是挣快钱。

注:本文中的关于科大讯飞的数据、组织架构等均截至 2013 年。

氧分子网综合雷锋网、PingWest、中国科技大学、上海交通大学

氧分子网(www.yangfenzi.com)是关注互联网生态圈的科技新媒体

·氧分子网http://www.yangfenzi.com)延伸阅读:

➤ 科大讯飞刘庆峰:声控变革智能家居

➤ 六大院长:人工智能技术与趋势报告(干货大放送)

➤ 科大讯飞移动互联网战略:三分天下拿最大一块

➤ 科大讯飞刘庆峰:人工智能全球决战未来十年

➤ 华为诺亚方舟实验室张宝峰:人工智能现实之路的三大挑战

➤ 百度赵世奇:希望7年后人工智能给北京冬奥帮大忙

➤ 王冠雄:智能语音助手或许会让手机成为最懂你的AI机器人

➤ 全球青年大会|杨静对话人工智能领袖:抗衡国际巨头要看中小企业?

分享给您的好友:

您可能还喜欢…

  1. 因为老罗的一场发布会,讯飞输入法一下占据了朋友圈接近一周。根据ASO100.COM的数据显示,讯飞输入法APP在AppStore的排名也快速上蹿。当然随之起来的,还有科大讯飞股票。

    语音输入法一夜之间的爆红,为什么?
    答案可能又出乎大家意料了。

    这次的红,正凸显了语音识别技术/产品目前的尴尬地位。

    语音识别技术,包括背后的语义识别技术,其实在过去十几年已经有了长足进步。

    在语音识别层面,各种语音,包括中文方言的识别率基本已经达到应用要求。曾经微软的一次发布会上,不仅实现了实时语音识别,还加上了实时翻译(背后包含了语义识别)。

    之所以,这次老罗一场发布会引起这么大反响,究其原因正是,语音技术虽然已经基本完善,但是没用主流应用场景,所以很难形成用户使用习惯,用户对相关产品了解很少,只能靠事件来唤醒用户的关注度。这是产品和技术最尴尬的地方。

    客观来讲,语音识别的应用场景还是不少的,比如车载应用已经提了很多年。现在也有一些call center在用语音识别来降低人工投入。

    但问题真的不在技术的成熟度够不够。

    为了验证我的这个观点,我下载了讯飞输入法,并对比了微信的语音输入。

    实验结果是,一般叙述性语句,普通话的识别正确率都几乎没有错误。但在地名、人名的识别方面,还是一如既往没有解。这是中国文字数量太大,组合太多的天然弊病。

    微信的语音输入其实已经是一个非常刚性的需求。直接发语音被很多人视为不礼貌,对于接受方来说效率低下。

    按理通过语音输入直接转化成文字再发,是合理的应用场景。但使用率目前观察的情况来看还是非常低的。

    其中一个原因就是人名地名的无解,因为哪怕只有一个字的错误,也需要再去唤起其他输入法来修订。这个麻烦阻挡了很多人继续使用语音输入法。讯飞输入法的iOS版本因为受到苹果的限制,交互体验其实还要更差一点。

    退一步说,即使是英语这类拉丁语系,他们的识别率其实可以比中文更高,却也没见广泛应用。

    这里还有一个很重要的因素是,除了驾驶场合,其他很多场景下,键盘输入比语音输入对周边环境的干扰小得多得多。所以大多数人还是选择了键盘输入。

    简而言之,语音识别目前还是没有一个杀手级的应用。反而是微软展示的实时翻译需求也许更普遍。可惜背后语义识别的技术成熟度还远远不如语音识别成熟。

    类似语音识别技术的尴尬状态其实并不少见,当初的指纹识别技术,如果没有智能手机解锁这个应用场景,恐怕也还只是部分好奇份子的玩具,以及军政应用和金融要地的安全工具。今天的虹膜识别、人脸识别差不多有类似的应用场景问题。更适合在特定环境下去突破。

    生物识别技术的最终大爆发还要等待AI的成熟。当人机交互最终脱离键盘鼠标,当我们面对人形机器人时,语音、语义、人脸、虹膜,所有这些技术都将最终像今天的指纹识别技术一样成为无处不在的基础构件。

    技术的发展就是这么孤单和漫长。我们应该不断支持基础技术的投入和发展。而在应用层面,我们需要保持清醒的头脑,别让一阵风吹晕了方向。