“小爱同学”“我在”……每一天,这样看似简单的对话会在全球重复1亿次以上。“小爱同学”如今已成为许多人智能生活中不可或缺的一部分。
小米集团人工智能实验室语音组部分成员正在开会
在这套强大的智能语音交互系统背后,有一支约90人的队伍,不断为完善语音交互技术、提升用户体验努力着。他们就是小米集团人工智能实验室语音组。今年“五一”前夕,他们荣获了“全国工人先锋号”荣誉称号。
(资料图)
2017年1月,小米人工智能实验室语音组成立,当时整个团队只有4个人。4个月后,语音组就开发出了小米第一个语音识别系统,并应用于小米电视,实现了可以通过语音方式搜索、播放电视节目。
团队带头人、小米集团声学语音技术总监王育军把这段经历戏称为“444岁月”,“4个人,经过40多次试验,历时4个月,不但上线了语音识别系统,还发表了相关论文。” 在王育军看来,首战告捷的小小成功其实难度并不大,接下来的小米音箱语音唤醒功能开发,才是第一块“硬骨头”。
小米集团人工智能实验室语音组部分成员正在开会
“我们要进行语音交互,先得成功叫醒它,这是第一道环节,所以唤醒的成功率和误唤醒率都非常重要。”王育军解释,所谓成功唤醒,就是当用户呼叫“小爱同学”时,系统能准确地识别出来是在进行唤醒;而误唤醒,就是毫不相关的声音或是发音近似的声音,也会唤醒音箱,“比如半夜大家都睡觉呢,鼾声或是户外的蛐蛐声都会唤醒音箱,那肯定不行,这种对用户的打扰是非常严重的。”
回想起这段时光,小米集团声学语音算法工程师王永庆形容为“非常难”,“刚开始做的时候是没有数据的。”简单来说,要让系统识别出哪些声音是在唤醒,哪些不是,需要一个庞大的声音数据库做基础,包括“小爱同学”这四个字,也需要有不同音色、不同口音、不同环境音下等多种情形做素材。于是,团队成员们不但自己录制声音素材,还请同事帮忙,那段时间,大家经常能看到王永庆提着饮料、小零食,笑眯眯地四处招揽同事,“来帮我们录一段啊!”
突破,并不容易。半年后,误唤醒率依然无法达到预期目标,团队成员们开始有些动摇,但王育军坚信,“技术的事儿,只要符合常识,沉下心不慌,就一定能做出来。”于是,一个45天计划诞生了,团队成员兵分三路,采取三种不同的方法,共同向着一个目的地前进,最终,把误唤醒率控制在了一天一次,进而一周四次,且仍在不断降低。
语音识别,为“小爱同学”装上了“耳朵”,但要能听会说,还要有“嘴巴”。于是,语音组研发推出了语音生成技术,可以将文本转化成语音,甚至还能自动谱曲、编曲、合成歌曲等等。其中,超级拟人语音合成技术最大限度模拟真人说话方式,不只是语气,甚至连人类说话时的犹豫、停顿、变速、叹息等习惯也能复刻,使语音合成效果更加自然流畅。
为用户带来智能生活新体验的同时,小米始终关注智能设备无障碍建设。“声音天然应该服务于无障碍。”在王育军看来,无论是视障人群、听障人群、语言障碍人群还是肢端残障人群,都可以通过人机交互的不同模态、利用声音去弥补缺失的能力。
于是,语音组为听障人群开发了“闻声技术”,让听障人群可以通过手机、平板电脑等智能设备“看到”其他人说话,也可以帮他们“看见”周围环境中的声音,例如警报声,敲门声等;“读屏技术”让视障人群“听到”屏幕上的内容;语音合成技术,为失去语言能力的用户发出声音;“聆听”技术为构音困难用户提供了个性化的语音识别,让他们也可以通过语音和设备交互,这项技术还被提名为2021年世界互联网领先科技成果。
到去年年底,小米人工智能实验室声学语音组已将自研声学语音技术全面应用于小米手机、音箱、电视、耳机、手表、机器人等79个品类,共计5312款智能产品中。“小爱同学”月活跃用户数量为1.15亿,已成为是世界上最忙的语音助手之一。
“科技发展的根本目的是作用于人的生活,我们希望通过自己的努力,让语音科技更有温度,让越来越多的用户享受到更好的体验感。”王育军说。
摄影 彭程
来源:北京日报客户端 记者:王天淇
流程编辑:u060
版权说明:任何媒体、网站或个人未经书面授权许可不得转载、摘编或利用其它方式使用本网站上的文字、图片、图表、漫画、视频等内容。
未经许可即使用,或以此盈利的,均系侵害本网站著作权及相关权益的行为,本网站将追究法律责任。
如遇作品内容、版权等问题,请在相关文章刊发之日起30日内与本网联系。
联系方式:takefoto@vip.sina.com