CMU计算机学院院长Moore:2016是机器情感智能的转折年?

作者介绍:Andrew Moore曾为Google效力8年,担任谷歌工程副总监,去年来到卡内基梅隆大学就任计算机学院院长一职。他在数据挖掘、机器学习等领域都有深厚积累与长期研究。

文/新智元(微信ID:AI_era)原创,译者:王杰夫  来源:Scientific American

更好地摄像机和更强大的计算机视觉与面部情感感知算法,将会变革我们与设备的交互方式。

当我写下这些时,我就意识到你不会完全明白我的意图。你无法看到我的面部表情和动作,无法听到我的抑扬顿挫的语调。你只能看到我留下的文字。

除了语言外有太多的沟通方式,因而我们很容易理解为什么人类与机器的交流是那么局限。我们的输入方式从最初的打孔卡进化到键盘,再变到激活Siri应用的语音,但最终机器还是只能理解我们的文字。

这就是为何机器情感智能的新进展如此了不起。多亏了摄像机科技与计算机视觉算法的提升,计算机即将完成能力上的巨大飞跃,它能够理解我们面部表情,理解眼睛活动和手势,理解我们说话的语气,甚至我们用手敲头的不同含义。

想像下各种可能性:一个虚拟的精神病专家将会通过分析我们的情绪来诊断抑郁症;它还可以量化我们的心情来判断疾病是否严重、疗效是否显著。生意人可以更好地测量观众对他们产品和广告的反映,老师也能够判断一堂课对学生来说吸引力如何。智能手机也可以改变建议,当它理解我们不开心或者迷惑了。

换句话说,我们冷冰冰的设备将开始通过感情理解我们。

计算机视觉研究者们已经在这个问题上花费数十年。为什么现在会取得突破呢?摄像科技是部分原因。为了理解面部表情,摄像机需要捕捉面部任何细微变化——面部肌肉的松紧,眉毛的耸动以及嘴角的动作。然而,直到不久前,人脸在大部分网络相机里还是模糊一团。但现在,即使普通的相机也能够捕捉做够丰富的面部表情。

另一部分原因就是不断提升的计算能力与空间,使得运行复杂的情绪检测算法成为可能。同时,计算机视觉算法本身也更准确高效-且能够实时运行。当然,这与有足够庞大的、注释准确的视频数据来训练面部表情算法是分不开的。

就在卡内基梅隆大学的机器人研究所,Fernando De la Torre领导着面部分析软件 IntraFace的开发工作。他的团队利用机器学习方法来教育IntraFace确定并跟踪具有普遍意义的面部特征。他们进而开发了一个个性化算法,能够利用软件去分析研究对象的表情。它不仅仅准确,而且高效,这个软件甚至可以在手机上运行。

De la Torre与普林斯顿大学的心理学家Jeffrey Cohn已经在抑郁症的临床诊断中取得了激动人心的结果。诊断抑郁症需要具有捕捉细微面部表情的能力,他们做到了。

当然,这也不是万无一失。一位演员就可能成功作出不真实的情感表达。不过,由于真实与虚假表情在表现时机上有区别,加入了时机变量的算法就没那么好被骗了。此外,面部表情还内化在其它行为中,Cohn与他的同事就发现如何通过声音时机的细微差别来区分激烈和温和的抑郁症。

另一位团队成员,语言技术研究所的Louis-Philipe Morency,正在使用多模式的机器学习来分析病人的非言语行为,以帮助意思更好地评估抑郁症与焦虑症。他设想这种技术不单能够帮助疾病诊断,还可以通过量化情绪反应来帮助医生跟踪病人的心理失常,而不用通过血检、X光等物理方法。

如果机器能够理解我们的情绪,那么我么与机器的交互方式将无比丰富。在卡内基梅隆大学,Justine Cassell正在研究虚拟伙伴的教育用途——想像一个真人大小的、能够与孩子沟通的卡通伙伴。她发现学生会更有积极性、学得更多,当这个虚拟伙伴能够对学生的情绪作出合适的反应,哪怕这种反应是嘲弄。

不难想像商业上会如何使用这种能力。广告商、经销商和电影制片人能够从特定人群那里获得更详细的数据。假设我们正在与一个公司的自动回复系统耗着打电话,想像如果这个系统能够感知我们的不耐烦的情绪并准备挂断电话,那会发生些什么。

我们在这个领域耕耘已久,现在看起来我们正处于突破的边缘。我预测2016年将会成为机器情感智能的转折年,并且将来情感会成为我们与机器沟通的崭新领域。

·氧分子网(http://www.yangfenzi.com)原创文章,转载请联系授权并注明出处。

·氧分子网(http://www.yangfenzi.com)延伸阅读:

谷歌收购多项语音识别专利 对抗Siri

微软最新广告:Cortana比Siri更聪明

30年磨一剑 印度的人工智能称Siri就是渣

拥抱神经网络,Siri语音识别能力将获大幅提升

科幻电影中的人声OS:Siri等语音助手的未来?

何晓阳:站在最好的科技时代,重新想象世界的一切

分享给您的好友:

您可能还喜欢…