搜狗发布速记工具“搜狗听写”:语音实时变文字为文字工作者减负

by 方飞君 · 2017 年 08 月 08 日

语音记录，是记者、编辑、作家等文字工作者们常用的记录方式。但是，对于记录者来说，语音并不方便后期的整理、分享和追溯，这也导致听语音记录的过程耗时耗力，影响信息的沟通。

氧分子网（www.yangfenzi.com）讯 8月8日，在搜狐网络大厦召开了以“言听记从有闻必录”为主题的搜狗听写产品发布会上，搜狗推出语音实时变文字的速记工具“搜狗听写”，可以解决会议、采访、写作等场景下长语音内容转写的难题。搜狗听写还可以和搜狗输入法的个人词库打通。

搜狗语音交互技术中心总经理王砚峰

搜狗语音交互技术中心总经理王砚峰先是回顾搜狗过去一年在人工智能领域从技术到产品方面的进展：一年以前的这个时候，我们当时做了搜狗知音引擎的发布会，提出的战略是自然交互+知识计算。自然交互是指人和机器之间的通过语音、图像、文字的方式，传递人和机器之间的信息，怎么更好的把信息表达给机器，让机器进行知识的整理和反馈。所以我们把人和机器之间的界面叫做自然交互。把后半部分机器和信息之间的交互过程叫机器计算。基于搜狗的输入法和搜索两款产品，输入法是PC和移动互联网时代人和机器之间的交互界面，搜索就是机器和信息之间的界面。在这样的技术话题下，形成了这样四个层次。底层是大数据和深度学习，是技术的燃料和引擎。第二层是语言的AI、语音的AI、图像的AI，搜狗的核心是语言，图像和语音都是围绕语言的交互方式，语言下面有对话、翻译、问答，语音有TTS、ASR，图像AI具备了CR、人脸识别和识图。我们可以掌握AI从自然交互到知识计算的完整体系，从知识图谱到问答技术，都是知识计算的体现。在这样的技术布局下，传统输入法的升级方向就是自然交互，搜索的升级方向就是知识问答，把语音、对话纳入到泛输入的体系下，我们并不是强调输入法这个产品，这个时候，输入法和搜索不止是产品本身，而是输入就是在自然交互怎么完成机器和人之间的界面，搜索就是知识计算怎么完成信息和机器之间的交互。过去一年取得的成绩，语音识别技术服务更多的用户。2015年5月份，每年会有5500万的语音DAU。2016年1月份，增长到1.25亿。现在已经达到2.6亿

为了保证在各种复杂场景下都能精准转写，搜狗听写采用了大量的前沿技术。在转写方面，搜狗听写使用了搜狗知音独家研发的长时语音转写技术，并与业内领先的端到端深度神经网络技术深度整合，使得语音识别准确率保持在较高水平。据了解，搜狗听写的功能相当强大，可以支持写文章、采访录音、会议记录、笔记整理、日常记事等场景，帮助用户实现高效记录和信息输入。而且针对不同场景和需求，搜狗听写可以支持“听写”和“转写”两种模式。在“听写”模式下，录音的同时即可实时给出识别结果，话音落文字出，几乎没有时间差；而“转写”模式下则可以离线录音，录音完成后一次性获取文字结果。同时，为了提高文字整理效率，搜狗听写还贴心的加入了边听边改、无线标重点、多端同步、信息分享等人性化功能，大幅度提升记录效率，让文字编辑更轻松。此外，在针对图书馆、咖啡厅等不便于大声说话而又有使用语音的场景，搜狗听写提供耳语识别技术，在人的说话音量低至30分贝时，依然可以准确识别。

搜狗语音交互技术中心总经理王砚峰

搜狗公司语音交互技术中心总经理王砚峰表示：“搜狗听写作为一款多场景的语音听写工具，其产品的关键在于语音识别准确率，而通过大规模的优质语音训练数据和深度学习的技术能力积累，搜狗也将这种语音识别的技术优势转化到了更多的适用场景中。”谈及以后的工作重点，王砚峰说：“我们从去年开始进行AI的技术研发和布局。当然，布局的时间更早，我们很早就开始做语音识别，很早就做NRP和搜索。去年开始爆发，储备更多的技术，开始对外输出，并且也开始逐步进行产品落地。从去年开始到今年，已经有些产品使用搜狗的AI能力。未来，会有更多的产品获得，会有更多的AI技术跟产业结合起来。大概会有三种方式。一是在可穿戴、车载、客厅场景下，自主研发更多的硬件。手机、电视已经没有太多机会了。但是，在儿童领域，以及现在炒得非常火的智能冰箱、可穿戴设备、后装领域的车载产品，目前这个市场还是相对比较混乱的。在这些市场上，搜狗是有机会的，我们开始进行布局。从今年年底开始，大家就会看到搜狗自主研发的硬件产品出现，1-2个月之内就会推出一款“在家”系列的面向儿童的机器人产品。同时，我们会积极推广AI云平台、AI云服务，服务更多的行业伙伴。在更多的垂直产品场景下，做更多好的产品，服务垂直行业的用户群体。去年我们在做知音引擎发布会的时候，就跟现场的朋友们承诺。因为知道大家平时在外采访很辛苦，希望可以帮大家做出一款更好的录音工具，以及怎么更好的整理文字和采访稿。虽然我们的动作很慢，起码到今天为止，这个产品是做出来了。接下来由我们的产品经理牛露云发布这款听写产品，它就是面向记者朋友们，怎么把声音整理成文字的一款工具类产品。”更多搜狗解读：www.yangfenzi.com/tag/sogou

搜狗听写的产品经理牛露云

搜狗听写都有什么的关键特性和功能呢？搜狗听写的产品经理牛露云如是说：“ 一是它是基于搜狗知音引擎的长时语音听写技术。怎么理解这个技术的应用场景呢？它是真正小时级的连续语音听写技术，具体到采访场景，可以保持不间断的录音，还可以实时的出文字。第二种场景，在长时写作的时候可以放心大胆的思考，可以非常从容的把你要写的文章写下来。二是文本和录音同时保存，可以无缝对齐。在这样的前提下，只有实现录音和文本的双保存，才能给使用者以安全感。我相信在座的朋友应该都有所体验。我们也做了一个大胆的假设，这个技术在不断发展，有一天真的达到识别率百分之百，可能这种录音和文本的双保存的解决方案还是大多数人想要的。为什么这么说呢？因为人类对于安全感的追求是永无止境的。除了双保存，我们还提供了录音和文本的对齐，你可以拖动文本，就可以听一下语音波形。也可以通过文本，听一下语音波形讲的是什么，起到确认的作用。三是支持标重点。这也是大家的痛点。之前有一个记者说他为了记下一天的采访，他把重点记在了本子上。我当时听了他这样说，我觉得很费劲。我觉得应该通过一部手机就可以搞定这个事情。搜狗现在提供了标重点的解决方案，你只要在听到重点的时候，按一下标重点，对应的文本和语音都会标上相应的重点记号。这是非常实用的功能。四是支持手机边听边改。这样一个功能是用在什么场景呢？比如刚才说到了有一位记者要改下一个采访，这个过程很长。他想利用闲碎的时间把上一段重点整理一下，他就可以利用在路上的时间，结合标重点的功能，把重点文字梳理出来，晚上再做采访稿整理的时候就非常高效。五是支持多客户端使用，并且实时同步。当你需要快速记录，并且是随时随地的场景下，可以用手机端产品。在家有较多时间，场景也比较随意，就可以用网页版，可以做一些重编辑的工作。只要用同一个账号登录，相应的内容都是可以共享的。”

还有一些贴心的小功能：一是支持一个小外设，蓝牙键。跟手机配对以后，可以放在自己的兜儿里，偷偷的按一下，重点就标上去了。第二个是摘要功能。刚刚的标重点是为了更好的打上重点。配套的还做了一个方便提取重点的功能，可以用一些移动的场景，把你编辑好的重点放在摘要窗里，你回家以后可以直接提取重点，直接使用。第三个是智能书名号和符号小键盘。主要是为了解决文字工作者输入一些不太常用的标点符号的场景的。智能书名号是结合搜狗搜索的大数据的。我认为这是一本书的时候，就直接给你加上书名号。有一些不太常见的书名，或者根本没有发布的或者是小众的书，我们也补充了符号小键盘的功能，你可以通过符号小键盘去直接输入书名号，也有引号、省略号这样的小功能。第四个小贴心是断点续录，打断了也可以接着录，这是非常实用的功能。在录音的过程中，可能会被动的或者主动的突然中断录音，但它又是一个整体的录音，怎么办？这个时候，你就可以打开搜狗听写，找到续录功能，前后的录音内容就可以关联上了。

谈及搜狗听写的愿景，牛露云说：“声音和文字都是一种信息的载体。声音的特点是输入快，但声音中的信息不好获取，声音中的内容也是不好分享和传播的。比如，我的手机上有60个录音文件，基本上都是我在参加重要会议的时候录的。我觉得会议内容比较重要，会上没有很好的消化，想回去以后再回溯一下。我发现这些录音文件录完以后，基本上就没有再动它，也没有二次操作。因为我们知道从录音文件中找出重点内容是非常费劲的行为。我不是一个很勤快的人。文字相对于声音来说，它的输入是比较慢的。它需要敲、打。但是，文字有一个特点是可以一目十行，关键信息分享比较容易，传播也比较容易。我今天恰好有一个改变世界的想法，想跟我们的老大汇报。我给他发声音的这种形式，肯定没有发文字的效果好。搜狗听写现在来看是一个输入工具，实际上我们是想做连接声音和文字桥梁，让你们手机上、电脑上的其他声音文字都可以转化成文字，长存于生活，让你们何时何地都能回溯，都能分享，都能很快的获取重要信息。这就是搜狗听写的愿景。”

搜狗语音交互中心技术总监陈伟：“早期的时候，更多的是使用深度神经网络，随后我们尝试了CN算法、LSTM的算法，现在在我们的线上更多使用的是CN+LSTM+DN的端到端的算法，可以更高效，准确率更高。上面的四个算法是目前在搜狗听写这个产品上使用的听写的技术。所谓听写就是它的时延比较小。当我们在讲话的过程中，随着我讲话的过程，可以快速的出字，可以快速的感觉到系统一直在回馈，给出识别结果。但是球，与此同时，在听写产品未来的计划中，也会上线转写能力。就像露云说到的，有一些已经录制好的语音，怎么把这些语音转化成文字。它其实不是特别在意时延，你可以花更长的时间，但需要准确给出结果。下面我是正在做的，一块是基于深度的CN结构，使用了50多层的深度神经网络的结构。另外一个跟翻译特别像，基于序列加序列的框架。我们还在研究其它算法。在此基础上，有了大的数据和好的算法，如何高效的给出模型让我们快速的部署到线上，这就需要依赖于我们自有的深度学习平台。我们可以在自有的深度学习平台上调动上百块算卡，快速的给出模型。这里讲的是多卡之间如何进行的快速传输和通信，怎么进行快速的迭代和更新。刚才这些算法是我们实际使用的基础技术，对于搜狗听写这个产品而言，它跟输入法很大的区别在于输入法上的语音识别更多的是近场的语音听写技术，话筒离嘴特别近。在搜狗听写这个产品上，它会存在大量的噪声，有人声的噪声、空调的噪声，包括扬声器播放出来的失真的声音，还有因为人所带来的口音这类的问题，它可能是高噪环境下的语音交互的能力。这个能力一直是我们在GE引擎框架下希望可以优化的地方。我们也把它转移到了搜狗听写这个产品上。基于数据和技术的结合，再结合搜狗一直在深度学习技术上的积累，在搜狗听写技术上，从立项到现在，识别错误率的累积下降是30%以上。”

目前，搜狗已经建立了强大的语音自研团队，拥有互联网规模最大的语音数据。每天超过2.6亿次的语音请求，为搜狗智能语音系统提供了海量的真实语料数据，使得机器不断学习，识别准确率越来越高，可应用的场景也越来越广泛。此次推出搜狗听写产品，是搜狗语音深入用户垂直场景下的又一个全新探索，通过更加专注于特定的场景和人群，去理解用户需求、解决实际问题，从而让语音技术为更多人所用。综合搜狗在人工智能上的产品布局，我们可以清晰的发现，让人工智能更“接地气”，已经成为搜狗在人工智能领域的独特标志。

·氧分子网（http://www.yangfenzi.com）延伸阅读：

➤ 搜狗公司搜索事业部总经理许静芳：搜狗汪仔的“大梦想”

➤ 雷鸣对话吴恩达：超级大咖深度解析人工智能的发展现状与未来

➤ 孙雯玉：关于语音搜索，我和很多人打了个7天的赌

➤ 任小枫任iDST首席科学家和副院长阿里“NASA计划”计划做什么

➤ Google 认为搜索的未来取决于：语音、位置、上下文、个人信息

➤ 出门问问李志飞：一个硅谷工程师在中国的 AI 创业“实践论”