基于多模态信息融合语音意图理解探究.doc

下载文档 降价啦

17
0
约9.47千字
约 17页
2017-06-29 发布于福建
举报
版权申诉
保障服务

基于多模态信息融合语音意图理解探究.doc

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于多模态信息融合语音意图理解探究

基于多模态信息融合语音意图理解探究摘要为从语音中获取包括字面含义和说话人情绪状态在内的全面意图信息，提出了一种基于多模态信息融合的语音意图理解方法，并对其中的关键词抽取、命令解析、基于文本/韵律特征的情绪状态检测以及多模态信息融合等关键算法进行了设计。该方法从识别文本和语音信号中抽取不同模态的信息并进行融合，能够有效地从语音中获取丰富的意图信息，有助于建立自然的人机交互环境关键词语音意图理解；多模态信息抽取；多模态信息融合中图分类号 TP 309 文献标识码 A A Study of Speech Intention Understanding Based on Multimodal Information Integration ZHENG Bin-bin JIA Jia CAI Lian-hong (Department of Computer Science and Technology, Tsinghua University, Beijing 100084，China) [英文单位]（六号斜体）【Abstract 】 In order to obtain comprehensive speech intention information containing both the literal meaning and speaker’s affective state, a speech understanding method based on multimodal information integration is proposed. Key algorithms including keywords extraction, command analyzing, text/prosody-based affective state determination and multimodal information integration are designed. Our method is able to effectively obtain rich intention information by extracting information of different modality from recognition text and speech signal and merging them together, which is helpful to establish a natural human-computer interaction environment. 【Keywords】speech intention understanding; multimodal information extraction; multimodal information integration 0 引言随着人机交互技术的迅速发展，如何使计算机具有理解话语的能力逐渐成为研究热点。意图理解系统旨在对说话人的意图进行准确地分析和理解。目前针对语音意图理解的研究主要集中于话语理解（spoken language understanding）[1]，通过分析特定领域的语音文本来获取其中的语义信息，大致可分为基于规则/文法的理解方法[2]、基于统计的理解方法[3]、以及基于例句的理解方法[4]。虽然上述方法能够有效地理解话语的字面意思，但普遍存在以下2个问题 1）话语理解的研究对象是对语音进行人工转写得到的文本，而在实际应用中只能使用语音识别引擎来获取文本信息由于自然语言中存在着复杂的口语现象和现有语音识别技术条件的限制，得到的文本不可避免地存在大量错误，这将导致理解性能大幅下降 2）只考虑了话语的字面意思，即语言学信息。然而，语音可以传达丰富的信息，除语言学信息外，说话人的态度、情绪或者说话风格等副语言学信息也对意图的理解起着重要的作用。忽视这部分信息可能导致对说话人意图的理解产生很大偏差针对以上问题，本文提出了一种基于多模态信息融合的语音理解方法，该方法利用关键词检测等技术对识别文本进行分析以减少识别错误带来的影响；除关键词信息外，也从语音信号中抽取声学特征，获得多模态信息并进行融合，以获取说话人状态，最终对说话人的意图进行准确而全面地理解 1 意图结构与理解框架 1.1 意图结构设计本文考虑语音意图理解在智能家居场景下的应用。在智能家居控制场景中，说话人的意图主要是对家居设备进行命令控制。为有效表示用户意图，设计了表1所示的意图结构，包括命令内容、用户状态以及命令状态3部分命令内