美国哥伦比亚大学工程师团队近日展示了一款能通过自主学习实现自然面部表情的机器人“Emo”。该研究采用两阶段“观察式学习法”,无需预先设定固定规则,使机器人能够同步嘴部动作与语音,减少人机交互中的“诡异谷”效应。

研究团队在《科学·机器人学》期刊上发布了相关成果。据介绍,Emo首先通过观察镜中的自己进行学习:其面部皮肤下装有26个独立微型马达,通过驱动这些马达产生数千种随机表情,系统可自主建立马达运动与面部形态间的对应关系。随后,机器人通过在线观看大量人类说话、唱歌的视频,学习将声音与具体的唇部动作进行关联。
结合两种学习方式,Emo能够将输入的音频实时转化为相应的面部动作,实现流畅的对嘴表现,且整个过程不依赖对语义的理解。目前,机器人在处理“B”“W”等需要闭合嘴唇的发音时仍存在改进空间,但随着持续学习,其表现有望进一步提升。
研究人员表示,该项技术推动更自然的人机沟通,未来或可应用于陪护、教育及娱乐互动等领域,提升机器人的表达亲和力。