给我一根棍子,就能撬动图灵测试,MIT用AI自动生成声音

MIT计算机科学与人工智能实验室一项最新的研究表明,机器通过深度学习可以制造出和物理世界中相似度极高的声音,达到以假乱真的水平,并通过了“声音图灵测试”。这项研究的对象是“看得到的声音”,也就是视频中所展示的实际生活中物体间相互作用产生的声音。未来,这一领域的研究将提升机器人与周围环境交互的能力。

给我一根棍子,就能撬动图灵测试,MIT用AI自动生成声音

机器人如果想在现实世界中寻找方向,首先需要能够对周围的环境和一系列连续发生的事件中可能会遇到的情况做出合理评估。

人类通过声音来获得对周围情况的评估能力。敲击物体有时候并不仅仅是为了娱乐,一些 研究正是由此发展了心理学上的直觉理论。我们能让机器也以相同的方式进行学习吗?

MIT计算机科学与人工智能实验室(CSAIL)的研究员展示了一个算法,能够有效地学习怎样评估声音:给这一算法播放一个用鼓槌敲打物体的视频片段,算法便能够制作出相似度很高的击打声,真实到足以骗过人类。

这一“声音的图灵测试”展示的远非只是一个更加聪明的计算机游戏,研究者们的设想是,在未来,类似的算法可以用于为电影和电视剧自动制作音效,同时也可用于帮助机器人更好地理解事物的属性

“当你用手指敲击红酒杯的时候,声音会反映杯子中有多少液体”,CSAIL 的博士生 Andrew Owens是这一项目即将发表的论文的第一作者,他说,“一个能模仿声音的算法可以发现事物的关键信息,比如形状、材料类型,以及它们的力量和动作。”

该团队使用的是深度学习技术,其中包括,要训练大量的数据,找到合适的模型。深度学习有着广泛使用,因为它能把计算机科学家从“必须手动设计算法”以及“监督处理过程”这些事情中解放出来。

论文的作者除了Andrew Owens,还包括刚获得博士学位的Phillip Isola、MIT 教授 Edward Adelson, Bill Freeman, Josh McDermott, and Antonio Torralba.

工作原理介绍

训练一个制作声音的算法,第一步是搜集各种声音,让机器进行学习。在几个月的时间内,研究者录了近1000个视频,近46000种声音。其中包括用鼓槌敲击、刮或戳物体的声音(使用鼓槌是因为能以一种持续的方式制造声音)。

下一步,团队会把这些视频输入到深度学习算法中,对这些声音特性进行分析,比如音调、音量等。

“然后,让算法对一段新的视频的声音进行评估,它会研究视频每一帧的声音属性,把这些属性与数据库中最相似的声音进行匹配”,欧文说,“一旦系统有了众多匹配的小段音频,它会把音频都连接起来,创造一段连续的声音。”

结果便是,这一算法程序可以精确地分析不同敲击声之间最微妙的差别,从敲击岩石清脆的声音到敲击藤条的沙沙声。音调也不是问题,算法能分析敲击声,从戳柔软的沙发发出的低音调到敲硬木头发出的高音调都可以。

“目前,人工智能的很多研究都只关注一种感官,比如视觉研究使用图像,语音研究使用音频,”卡内基梅隆大学的助理教授Abhinav Gupta评价说,“在模仿人类上,这项研究踏入了一个正确的方向,那就是把声音和视觉融合起来。”

这项研究带来的另一个好处是:团队记录的46000种声音对其他研究者都是免费的。数据库的名称是“Greatest Hit”。

声音图灵测试

简单说来,图灵测试指的是机器可以骗过人,让人无法分清楚究竟是人还是机器在完成任务。

为了测试这种机器制作的声音的真实度,团队进行了一项线上调查,让受访者看两段视频:一段是真实记录的声音,另一段是算法产生的声音。然后回答问题:哪一段是真实的?

结果显示,受访者选择假声音的次数比真的声音要多一倍。他们主要被树叶或者尘土等这些不太清楚的声音迷惑,而木头或者金属的材料则要清楚得多。

给我一根棍子,就能撬动图灵测试,MIT用AI自动生成声音

团队发现,不同材料的声音会揭示其关键的属性:该团队开发的一种算法能够分辨一个材料是硬的或者软的,准确率达到67%。

这一研究是CSAIL最近关于音频和视频研究的一部分。研究员 Bill Freeman 还帮助开发出一种算法来分析视频捕捉到的物体运动,这些运动是人的肉眼无法看到的,这让他的团队能够做一些研究, 比如让人类脉搏的可视化。

向前看

研究者称,这一系统仍有提升的空间。比如,如果视频中的鼓槌移动得很剧烈,这一算法程序很可能会出错。另外一个局限是,事实上,算法只适用于“看得到的声音”,也就是那些由物体相互作用,并且视频里对这种动作有直接呈现的声音。

团队相信,未来该领域的工作可能会提升机器人与周围环境交互的能力

“机器人可以凭 ‘直觉’ 了解水泥地是硬的,草地是软的,进而知道如果踏入其中任何一块土地时,会发生什么”,Owens 说,“能够对声音进行评估,为评估现实世界中一系列真实的交互迈出了重要的第一步。”

本研究部分由美国国家科学基金会、壳牌公司支持。此外,Owens 得到微软研究奖学金的支持。

【来源:MIT News 译者:胡祥杰】

氧分子网(www.yangfenzi.com)是关注互联网生态圈的科技新媒体

·氧分子网(http://www.yangfenzi.com)延伸阅读:

人工嗅觉的图灵测试已诞生,如何精准再现气味
美国天普大学王培:图灵测试是人工智能的标准吗?
大揭密,阿里大佬们背后那群温婉的女汉子
孙雯玉:关于语音搜索,我和很多人打了个7天的赌
MIT研制出无需下水,就能体验潜水的“两栖”VR设备
Spacehack创始人Waldman的新书,让你体验从未有过的太空生活
语音软件团队的智能家居尝试:智能360家庭版
脱胎于Bing 语音助手Contana背后的故事
Google 认为搜索的未来取决于:语音、位置、上下文、个人信息

您可能还喜欢…

发表评论

邮箱地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>