“魔镜魔镜告诉我,我现在的心情怎么样?”这样的提问不再是童话故事里的专属,在现实生活中,南京工业大学的同学们也设计出了一款“魔镜”。只需要坐在电脑前说话,电脑中的数字人就能识别你的所有情绪。这款特别的“魔镜”得到了专业认可,在2022RoboCom机器人开发者大赛信息技术与工程创客赛道全国总决赛中获得一等奖。

设计“魔镜”的,是南京工业大学学生孙文浩、彭华东、沙书杰、邢卓雅、李彦达,他们在武晓光、郭天文老师的指导下,设计出了“魔镜”的基本构造。据介绍,人类的情绪极为复杂,共有27种不同的情绪,包括愤怒、厌恶、恐惧、快乐、悲伤、惊奇和中性七种基础情绪。面对当今快节奏的生活,人们或多或少都会有愤怒、焦虑等不良情绪,当这些不良情绪无法及时消解时,便容易滋生各种生理和心理疾病。基于此,孙文浩等五位同学设计制作了一款能够感知人类情绪的数字人形象助手——“魔镜”,用户只需要坐在电脑面前,打开摄像头与麦克风,对着“魔镜”程序说话,“魔镜”就能够通过其声音与视频数据进行情感识别,电脑中的数字人随即会做出相对应的表情,帮助用户感知自己的情绪。


(资料图片仅供参考)

团队将项目分为四个执行步骤施行,即制作“魔镜”的表情驱动、基于视觉的元宇宙情绪感知、基于听觉的情绪感知以及最终产生的多模态情绪判断。团队选择了比动漫人物、动物在表情复现上更为精细的数字人写实形象作为建模方案,而实现表情驱动则需要对真人的眉毛、眼睛、鼻子、嘴巴等70个特征点进行标定。

“在采集数据的过程中,我和孙文浩同学作为模特需要模仿各种各样的表情,然而做出来的表情还是有些别扭,这对腼腆的我们来说可太难了,这个过程也为团队增添了不少乐趣。”团队成员沙书杰笑着说。

想实现基于视觉的元宇宙情绪感知,还需要对采集到的人脸表情进行标注分类,在网络结构模型方案的选择上,团队通过实际场景测试,得出LeNet-5的准确率为70%,而AlexNet的准确率高达95%的测试结果,并最终选择AlexNet网络结构模型。

“模型最终测试的准确率和网络模型有着直接关系,比如模型的层数不同,那么它的识别能力以及精度都是不同的。除此之外,超参数的选择也会影响到模型的识别效果。”孙文浩补充道。

“想要辨别一个真实的人的情绪,光靠视觉辨别是远远不够的,我们可以增加声音这一模态来判断人的情绪。”武晓光老师和郭天文老师在此基础上又向团队提出了新的优化方案。团队通过处理时域信号得出语音频谱图,从而实现基于听觉的情绪识别。

“语音频谱图的语音数据集选自CASIA汉语情感语料库,它是由中国科学院自动化所录制,包括四个专业发音人,生气、高兴、害怕、悲伤、惊讶和中性等六种情绪,共4800句不同发音。”团队成员彭华东介绍。如此,“魔镜”便可以基于视觉和听觉这两个模态对人的情绪进行更深层次的感知。在两位老师的指导下,该团队还完善了数字人细腻化表情呈现、精细化报告设计等问题。

团队带着作品《基于多模态的元宇宙数字助手——魔镜》参加了2022RoboCom机器人开发者大赛信息技术与工程创客赛道全国总决赛,成功摘得一等奖。

据悉,目前,“魔镜”在功能上已经实现了对情绪的准确判断,可以在人机交互的现实或虚拟场景中帮助计算机或虚拟机器人感知、理解人的情绪,并针对不同的情绪进行音乐推送,在心理健康诊断、情绪舒缓等场景中实现应用价值。未来,“魔镜”有望在体量上转至嵌入式平台,实现设备的轻量化。同时,该团队还将加入更多模态,对人的情绪进行更深入地探索,从而使“魔镜”能够更综合地感知人的情绪并预测可能存在的心理疾病,达到提前预防与控制疾病的目的。

扬子晚报/紫牛新闻记者 杨甜子

校对 王菲

推荐内容