基于多模态信息融合语音意图理解探究.docVIP

基于多模态信息融合语音意图理解探究.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多模态信息融合语音意图理解探究

基于多模态信息融合语音意图理解探究摘 要 为从语音中获取包括字面含义和说话人情绪状态在内的全面意图信息,提出了一种基于多模态信息融合的语音意图理解方法,并对其中的关键词抽取、命令解析、基于文本/韵律特征的情绪状态检测以及多模态信息融合等关键算法进行了设计。该方法从识别文本和语音信号中抽取不同模态的信息并进行融合,能够有效地从语音中获取丰富的意图信息,有助于建立自然的人机交互环境 关键词 语音意图理解;多模态信息抽取;多模态信息融合 中图分类号 TP 309 文献标识码 A A Study of Speech Intention Understanding Based on Multimodal Information Integration ZHENG Bin-bin JIA Jia CAI Lian-hong (Department of Computer Science and Technology, Tsinghua University, Beijing 100084,China) [英文单位](六号 斜体) 【Abstract 】 In order to obtain comprehensive speech intention information containing both the literal meaning and speaker’s affective state, a speech understanding method based on multimodal information integration is proposed. Key algorithms including keywords extraction, command analyzing, text/prosody-based affective state determination and multimodal information integration are designed. Our method is able to effectively obtain rich intention information by extracting information of different modality from recognition text and speech signal and merging them together, which is helpful to establish a natural human-computer interaction environment. 【Keywords】speech intention understanding; multimodal information extraction; multimodal information integration 0 引 言 随着人机交互技术的迅速发展,如何使计算机具有理解话语的能力逐渐成为研究热点。意图理解系统旨在对说话人的意图进行准确地分析和理解。目前针对语音意图理解的研究主要集中于话语理解(spoken language understanding)[1],通过分析特定领域的语音文本来获取其中的语义信息,大致可分为基于规则/文法的理解方法[2]、基于统计的理解方法[3]、以及基于例句的理解方法[4]。虽然上述方法能够有效地理解话语的字面意思,但普遍存在以下2个问题 1)话语理解的研究对象是对语音进行人工转写得到的文本,而在实际应用中只能使用语音识别引擎来获取文本信息 由于自然语言中存在着复杂的口语现象和现有语音识别技术条 件的限制,得到的文本不可避免地存在大量错误,这将导致理 解性能大幅下降 2)只考虑了话语的字面意思,即语言学信息。然而,语音可以传达丰富的信息,除语言学信息外,说话人的态度、情绪或者说话风格等副语言学信息也对意图的理解起着重要的作用。忽视这部分信息可能导致对说话人意图的理解产生很大偏差 针对以上问题,本文提出了一种基于多模态信息融合的语音理解方法,该方法利用关键词检测等技术对识别文本进行分析以减少识别错误带来的影响;除关键词信息外,也从语音信号中抽取声学特征,获得多模态信息并进行融合,以获取说话人状态,最终对说话人的意图进行准确而全面地理解 1 意图结构与理解框架 1.1 意图结构设计 本文考虑语音意图理解在智能家居场景下的应用。在智能家居控制场景中,说话人的意图主要是对家居设备进行命令控制。为有效表示用户意图,设计了表1所示的意图结构,包括命令内容、用户状态以及命令状态3部分 命令内

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档