人机对话系统是目前人工智能技术在日本应用最为广泛的领域之一。早在20世纪80年代后期,日本就将语音识别与合成技术应用于人机对话系统开发。近年来,日本鼓励学科交叉融合,以语言学理论赋能人机对话系统研究,促进了该领域相关研究的纵深发展。

人工智能是利用计算机或由计算机控制的机器,模拟、延伸和扩展人类的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术和应用系统,核心技术以机器学习为主。机器学习是从数据中总结规则和判断标准,继而依据这些规则和标准预测、判断未知数据的人工智能技术,包含深度学习等技术。深度学习指多层人工神经网络及其训练方法,其实质是通过构建具有诸多隐层的机器学习模型和海量训练数据来学习更有用的特征,最终提升分类或预测的准确性。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,模仿人脑的运作机制来解释数据。当前,应用深度学习技术取得重大进展的领域有图像识别、语音识别、预测和自然语言处理等。其中,自然语言处理领域的研究涉及自然语言,即人们日常使用的语言,与语言学密切相关。


(资料图片)

自然语言处理是以语言为对象,利用计算机技术来分析、理解和处理自然语言的技术。它是连接机器与人类的沟通桥梁,旨在实现人机良好交流。自然语言处理分为自然语言理解和自然语言生成。前者指机器应具备理解自然语言文本含义的能力,但由于自然语言存在多样性、歧义性和依赖语境等特点,故自然语言理解技术至今无法达到人类理解语言的水平;后者则要求机器能以自然语言文本来表达给定的意图、思想等,包括内容确定、文本建构、句子聚合、语法化、参考表达式生成和语言实现。自然语言处理技术的典型应用有情感分析、语音识别、机器翻译和聊天机器人等,其中,聊天机器人是典型的人机对话系统。

从人工智能研究初期开始,人们就致力于开发高度智能化的人机对话系统。人机对话系统是让机器能够理解人类的自然语言且能与人类交互对话的智能系统。其技术架构涉及语音识别、语义理解、对话管理、自然语言生成及语音合成等。按领域开放程度,可分为开放域人机对话系统和垂直域人机对话系统;按有无交际目标,可分为目标导向型人机对话系统和非目标导向型人机对话系统;按功能,可分为任务指向型人机对话系统和非任务指向型人机对话系统。

日本人机对话系统研究从20世纪90年代初期就显现出蓬勃的生命力,取得了一系列成果。目前的研发重点是非任务指向型闲谈式人机对话系统,相关研究涉及语言学、心理学、社会学等多个学科。近年来,日本国立国语研究所、人工智能学会等科研机构和团体的研究人员从不同学科视角出发,积极研发以自然语言处理技术为基底,适配用户不同需求的人机对话系统。例如,在与语言学相关的研究中,研究人员活用语音学中的音韵特征(如日语中的促音便、拨音便等变调变形规律),赋予智能体多种角色个性和感情特征,使其能根据用户的性格选择合适的语言与用户交流。他们还使用词汇学相关的文本表示(Text Representation)研发、改良话题展开程序和话题转换程序,以名词替换原则为基础赋予系统应答语言灵动性。通过解析句法学中的谓语结构、格助词搭配等,研究人员设计出了可以通过提取、推荐信息主动开启对话的系统;基于语用学中的礼貌模型,研发出可调节人机距离或人机关系的系统。在多模态领域,研究人员综合分析用户的副语言和自然语言后设计出可识别多模态特征的系统。

在语言学理论的帮助下,日本人机对话系统研究超越了以语音识别与语义判断为主的传统研究,开始着眼于语音、语义、语用三个层面的多模态研发和系统语言设计。人机对话系统是人类与机器的双向交流,其重要功能之一就是积极为用户推荐其可能感兴趣的信息。因此,一部分研究人员从系统的视角出发,通过编写判定词汇的关联性与离散性、从用户过往聊天记录提取信息等程序,设计研发出能够主动提起话题的系统。也有研究人员使用话语相似性、最大平均信息量等方法验证用户提起话题的意图,为系统正确识别用户的自然语言提供帮助。总体而言,日本人机对话系统研究按研究范式可分为两大类:一类是先考察人际交流中的自然语言特征,基于其调查结果设计程序,再通过用户与系统的对话来验证系统语言是否自然,根据检验结果进一步优化程序;另一类是基于网页中的大量文本信息构建语料库,以此作为系统语言数据来设计人机对话系统,部分研究在编写完程序后,通过调查用户与系统之间的对话来验证系统语言的自然性。

尽管日本的人机对话系统研究成果涉及对系统语言中多个话轮、不同种类的言语行为和多样性话题的考察,但几乎没有人工智能技术专家能给出认定使用频率最高的话轮、言语行为序列和话题展开模式的合理方案。语言学领域的话语礼貌理论为解决上述问题提供了依据。

话语礼貌理论由日本学者宇佐美真有美(Usami Mayumi)提出,是日语语言学界最具影响力的礼貌理论之一。该理论中的话语基本态概念,通过限定会话场景和会话参与者的年龄、身份、性别等因素,可认定不同场景中的典型语言要素、特定言语行为的表述连锁链以及话题展开模式。目前,人际对话研究中依据话语基本态探讨言语行为(如邀约、请求、拒绝、道歉等)、语言要素(寒暄词、附和词、礼貌用语)以及话题导入的成果较多。以请求行为为例,日语母语者的表述连锁链为:引起注意→表达顾及→说明情况→提出请求→陈述辅助行为→追加说明→插入其他话题→再次请求→表达感谢→结束会话。人工智能技术专家可结合实际情况将上述结论直接应用于人机对话系统的程序编写,解决典型语言要素和特定言语行为谈话流程难判定、产出语言机器腔调浓厚等问题。此外,还可将自然语言研究中认定的话题展开模式(如日本大学生初次见面闲谈时话题展开模式为:寒暄→介绍个人信息→谈论大学生活及其相关的内容)导入人机对话系统,以解决系统提起话题时可能侵犯用户个人隐私等伦理道德问题。

日本人工智能技术专家与语言学家的跨领域协作表明:只有人类了解清楚自身语言的运行方式,机器对人类语言的模拟才有据可依。虽然深度学习能提供可喜的预测结果,但仍难解释其结果所得向量的每一维的具体语义。因此,人机对话系统不应只囿于大数据主导下的统计结果,还应活用人际对话研究领域的语言学成果,使其朝着融合深度学习领域的自然语言处理、图像识别、语音识别、预测四大主要技术方向发展,逐渐发展成为具备高度推理能力的多模态人机对话系统。

作者:毋育新 李瑶

来源:中国社会科学网

推荐内容