依据深度学习的算法：当机器人有了情感

jack · 发表于 2016-2-16 20:20:43

冯雁是香港科技大学电子与计算机工程教授，由于在人机交互方面的贡献而当选电气和电子工程师协会会员（IEEEFellow）与国际语音通讯协会会员。

由于与基于语音和手势的智能机器的交互越来越多，我们期望它们可以识别人类的情绪并进行高层次的交流，如识别出幽默、讽刺、意图等。为了能实现这样的交流，我们应赋予机器一个情感模块。关于情感机器人的研究还在初始阶段，但科学家已经利用信号处理技术、机器学习算法、自然语言处理中的情感分析等工具来构建虚拟的机器人了，这些机器人正在试图“理解”人类的情感。这有可能是第一句由商用机器人说出的带有情感的话。

上世纪90年代末，美国波士顿一家叫做SpeechWorksInternational的公司在为客户提供的客服软件中编入了一些常用对白，这是其中一句。从此以后，人们逐渐习惯对着机器说话。现在的客服系统中，几乎每一个电话都是从自动语音开始的。在数以亿计的人中，每一位兜里都揣着一部智能私人助手。他们会通过Siri或者其他语音助手寻找餐馆、呼叫朋友甚至播放喜欢的歌。而它们（这些智能助手）也在以一种古怪甚至有点陌生的方式模仿人类的行为。比如下面的对话：但是，机器并不总会按照我们的期望回应我们。语音识别软件会出错，机器也常常会误解我们的意图。它们体会不到感情与幽默，也不能感知冷嘲与热讽。如果未来我们要花更多的时间与智能机器互动（不管是一个智能吸尘器或者是人形机器人护士），我们就需要它们能进一步听懂我们说的话，能够“明白”我们在说什么，换句话来讲，我们需要它们拥有情感。

在香港科技大学的实验室中，我们正在开发这样的智能机器。有情感的机器人会为社会提供巨大帮助。它们不仅会是私人助理，也会成为人们的伙伴，还会以更友好和热心的方式在行为和感情等方面为人们提供支持。将来，机器人会在与人交流的过程中学习，会使我们的生活更美好、工作更有效率；它们会对过失或错误道歉，直到得到原谅和允许后才继续工作；它们会照顾老人或教育小孩，甚至在危机关头牺牲自己来挽救你的生命——这是最终极的移情形式了。现在，一些可以模拟人类情感的机器人已经上市了，“Pepper”就是其中一款，它是小型、人形陪伴机器人，由法国Aldebaran机器人公司为日本的软银移动公司定制生产。还有一款叫Jibo（“激波”）的机器人，是由罗伯托·皮耶西尼（RobertoPieraccni）等工程师开发的一款重约2.7千克的桌上私人助手。皮耶西尼在业内十分有名，他就是我们在前文中提到的技术公司SpeechWorks的前任总裁。

对我们来说，尽管情感机器人仍处在“蒸汽时代”（代表某种产品或技术的发展初期），但新式工具与算法的涌现将以极快的速度推动智能机器性能的进步。赋予机器人感情6年前，我开始对情感机器人感兴趣，当时我们的研究组第一次设计了一款与苹果Siri相当的中文版系统。我对用户的行为很着迷，因为使用者自然而然地会对这些私人助手产生情绪化的反应，如果这些机器没有准确理解他们表达的信息，使用者会感到烦躁和挫败。那时我开始意识到，要制造能够理解人类情感的机器，语音识别算法非常关键，而我已经在这个领域深耕了25年。

任何智能机器在核心上都是一套包含了不同模块的软件系统。每个模块是单独执行某种任务的程序。一个智能机器人可以有专门处理人类语音的模块，也可以有从摄像头捕捉的图像中识别物体的模块。如果要让机器人有情感，需要一套叫做情感模块的程序来构成它的“心”。模块中包含的程序可以根据潜藏在人脸表情中的线索、语音中的声学标记和语言本身的语义作出分析，判断对方的情感状态，并告诉机器人该如何应对。当两个人互相交流的时候，他们会自动利用各种线索来判断对方的情绪状态，他们会解读面部表情、肢体语言，捕捉语调的变化以及理解语义的内容。

构建一个情感模块就是要识别人类在沟通时所表现出的特点，使机器能够识别这些情感并在不断“训练”算法的过程中让机器人能够快速分辨出这些特点。当我的研究组开始训练机器，使它探察语音中的情感时，除了识别语义以外，我们还决定要教会它识别一些基础的声学信号特征，因为我们人类也是这么做的。虽然我们很少用类似的术语来考虑情感交流问题，但人与人之间的交流就是信号处理的过程。我们的大脑通过分析一个人声音中的压力、愉悦、恐惧、愤怒、恶心等信号来感知他的情绪。

当我们比较愉快的时候，语速会变快，音调会提高。但是，当我们忧郁的时候，声音就会变得单调而干涩。利用信号处理技术，计算机可以探测到这些线索，这就像测谎仪可以记录血压、脉搏与皮肤的导电性一样。为了探测到抑郁的情绪，我们利用“监督学习法”（一种常见的机器学习模型）来训练机器，让它可以识别与抑郁相关的声学特征。虽然在一段简短的语音记录中只包含几个词，但是我们却可以从音调中抽取出大量的信号数据。我们研究的第一步是，教会机器从学生的语音样本中识别出有压力的负面情绪。由于研究的内容，学生们还给这个小组起了一个外号：“香港压力与紧张大学”（Hong Kong University of Stress andTension），首字母缩写与香港科技大学相同。我们会问学生12个问题，这些问题给学生带来的压力会逐渐增加。完成这个过程后，我们就建了第一个多语种的自然语音情感数据集，其中包含了英语、普通话与粤语。

我们已经收集到了长达10小时的数据集，测试后发现，我们的算法识别出压抑情绪的准确率为70%，跟人类的识别率已经非常相近了。在做上述工作的同时，我的另一个小组也开始训练机器，他们想让机器能够分析声音的特征，在不考虑歌词的情况下识别出音乐表达的情绪。不同于情感，情绪是音乐在播放时传达出的一种氛围。这个小组从主流的欧亚语言中收集了5000段不同类型的音乐，其中的几百段音乐已经被音乐家们划归到14种不同的情绪类别中。我们从每首歌里提取出大概1000种非常基础的信号特征，比如代表能量、基础频率和谐程度的声学参数，然后利用已经标识好的14类音乐来训练14种“分类模型”，每一种分类模型都需要判断一段音乐是否属于特定的情绪类别。不过一种分类模型只能识别一种音乐，比如其中一种模型只识别欢快的音乐，而另一种只识别忧伤的音乐。当这14种分类模型协同工作时，才能综合所有的识别结果，对音乐的类型作出一个推测。假如“欢快”的分类模型将一段忧伤的音乐误认为是欢快的，那么在下一轮中，这种分类模型就需要再次接受训练。

在每一轮识别过程中，识别能力最弱的模型都会再次接受训练，从而提高整个系统的识别能力。通过这种形式，机器可以在听到音乐以后，识别出不同片段的音乐属于哪些不同的情绪。通过听取音乐，识别出任何一段音乐传达的情绪后，系统都会及时告诉我们，表现得就像人类一样。基于这项研究，我与以前组里的学生成立了一家科技公司，叫IvoTechnologies，这家公司主要在开发家用的情感智能机器人。我们的第一个产品是“情绪盒子”，相当于家中的智能信息中心，它可以根据用户的心情控制灯光和音乐。懂你所想为了理解幽默、挖苦、讽刺或其他高层次的交流特征，不止需要机器人从声学特征中识别出情感，还需要它们理解语言的内在含义，并把对应的语言和这句话在表达时所传递出的情感放在一起对比。

从上世纪80年代开始，科学家就已经开始利用收集到的语音数据开发先进的语音识别技术了，现在这项技术已经变得非常成熟。然而，识别语音和理解语义之间，还存在很大的区别。在人与机器的交流过程中，整个流程一般是这样的：语音的声波被转换成数字信号，数字信号还得转换成软件能够理解的参数，语音识别软件把这些参数变成词汇，然后再用语义解码器把这些词汇转化成含义。当开始研究情感机器人时，我们意识到，网络上用来从用户评论中提取情感信息的算法或许能在分析语音的情感时帮到我们。

这些机器学习算法会在内容中寻找具有指示意义的线索，有些关键词（如“悲伤”和“恐惧”）暗示着孤独。如果多次用到口语化的词汇（如“来吧”等），说明这首歌曲应该比较劲爆。我们也分析了不同表达方式所传达的不同信息，一个人的回答到底是明确和清晰的，还是犹豫不决，甚至断断续续、闪烁其词？这些回答非常详尽，还是简略而草率？在我们做音乐中的情绪识别时，也会训练算法挖掘歌词，从而找出与情感有关的线索。我们会像抽丝一样，提取出一段固定长度的歌词，把它输入一些分类模型中，每个分类模型都会负责判定相关特征，把它划归到14种情绪类型的一种中去，这类固定长度的单词串叫做n-gram。另外，我们还会对单词串的词性进行标注，这些对歌词具有指示意义的“标签”也能辅助情绪识别。利用统计规律，计算机能用n-gram模型和词性标签产生任何语言的语法规则。这些规则可以帮助像Siri一样的系统识别语音，或帮助谷歌翻译把一种语言转换成另外一种。一旦机器可以理解谈话的内容，它就可以把这个内容和传递内容的表达方式做比较。如果一个人叹着气说“真开心，我们整个周末都要工作”，算法就能识别出情绪线索和陈述内容之间不匹配，进一步算出这个人故意说反话的概率。类似地，当机器可以理解情感和谈话的内容时，它就能够通过接受更多不同的信息，做出信息配对，从而发掘人们更为复杂的意图。

如果机器人和用户一起在家，而且刚好是午餐时间，机器人或许能够理解这句话的意思，并问用户：“你希望我给你做个三明治吗？”如果他们在旅行，机器人也许就会说：“需要帮你查查周围的餐馆吗？”未来的智能机器人今年年初，我实验室的学生和博士后研究员就把各种语音识别和情感识别的模型组装到了一起，做出了一个情感机器的原型，我们叫她“超级美眉Zara”。目前，Zara还是虚拟的机器人，在显示屏上只是一个卡通人物的形象。当你与Zara开始交谈的时候，她会说：“请稍等，我正在分析你的面部特征。”这时，Zara的算法正在研究通过摄像头捕捉到的图像，图像所包含的信息可以判断你的性别和种族等信息。在这些判断的基础上，Zara会猜想你说哪种语言（现在她已经会英语和汉语了，正在学习法语），并用你的母语问你一些问题。“你最早的记忆是什么？”“说说你的妈妈吧”“你对最近一次度假的感觉如何？”“给我讲一个和女士、狗和大树有关的故事吧”。通过这些交互的过程，再配合你面部的表情、声音中的声学特性和你说话的内容，Zara能用与你现在的情绪相匹配的方式回应你。经过5分钟的对话后，Zara会试图判断你的个性，并问你对情感型机器人的态度。通过这种方式，我们逐渐收集到了很多反馈，这可都是人们跟早期情感机器人之间交流的资料。

Zara只是一个原型机，但是她采用了机器学习算法，在与更多人的交流与互动后，她可以收集和分析更多的数据，从而变得更加聪明和感性。目前，她数据库中的知识还很少，仅仅在与我们实验室中的研究生交流和互动时获得了一些。明年，我们将考虑给Zara安装上人形的身体。或许，现在就说“友好的机器人时代”已经来临还有点为时过早，我们也只是刚刚开发了一些未来的情感智能机器人所需的基础工具。

即使当Zara的后续产品上市时，我们也不能期待它们就是完美的。事实上，我逐渐认识到，让机器人拥有完美的准确性和卓越的效率不一定是最重要的。最重要的是，即使这些产品还有很多缺陷，它们也越来越人性化了，毕竟我们人类的日常生活也充满了各种不完美。现在，如果我们能很好地处理与机器人相关的很多问题，未来的情感机器人也许就不用承担来自人类对它们的恐惧了，它们或许会成为我们的守护者，我们的良师和益友。

		自动登录	找回密码
密码			立即注册

[算法分析] 依据深度学习的算法：当机器人有了情感