- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多模态信息融合语音意图理解探究
基于多模态信息融合语音意图理解探究摘 要 为从语音中获取包括字面含义和说话人情绪状态在内的全面意图信息,提出了一种基于多模态信息融合的语音意图理解方法,并对其中的关键词抽取、命令解析、基于文本/韵律特征的情绪状态检测以及多模态信息融合等关键算法进行了设计。该方法从识别文本和语音信号中抽取不同模态的信息并进行融合,能够有效地从语音中获取丰富的意图信息,有助于建立自然的人机交互环境
关键词 语音意图理解;多模态信息抽取;多模态信息融合
中图分类号 TP 309 文献标识码 A
A Study of Speech Intention Understanding Based on Multimodal
Information Integration
ZHENG Bin-bin JIA Jia CAI Lian-hong
(Department of Computer Science and Technology, Tsinghua University, Beijing 100084,China) [英文单位](六号 斜体)
【Abstract 】 In order to obtain comprehensive speech intention information containing both the literal meaning and speaker’s affective state, a speech understanding method based on multimodal information integration is proposed. Key algorithms including keywords extraction, command analyzing, text/prosody-based affective state determination and multimodal information integration are designed. Our method is able to effectively obtain rich intention information by extracting information of different modality from recognition text and speech signal and merging them together, which is helpful to establish a natural human-computer interaction environment.
【Keywords】speech intention understanding; multimodal information extraction; multimodal information integration
0 引 言
随着人机交互技术的迅速发展,如何使计算机具有理解话语的能力逐渐成为研究热点。意图理解系统旨在对说话人的意图进行准确地分析和理解。目前针对语音意图理解的研究主要集中于话语理解(spoken language understanding)[1],通过分析特定领域的语音文本来获取其中的语义信息,大致可分为基于规则/文法的理解方法[2]、基于统计的理解方法[3]、以及基于例句的理解方法[4]。虽然上述方法能够有效地理解话语的字面意思,但普遍存在以下2个问题
1)话语理解的研究对象是对语音进行人工转写得到的文本,而在实际应用中只能使用语音识别引擎来获取文本信息
由于自然语言中存在着复杂的口语现象和现有语音识别技术条
件的限制,得到的文本不可避免地存在大量错误,这将导致理
解性能大幅下降
2)只考虑了话语的字面意思,即语言学信息。然而,语音可以传达丰富的信息,除语言学信息外,说话人的态度、情绪或者说话风格等副语言学信息也对意图的理解起着重要的作用。忽视这部分信息可能导致对说话人意图的理解产生很大偏差
针对以上问题,本文提出了一种基于多模态信息融合的语音理解方法,该方法利用关键词检测等技术对识别文本进行分析以减少识别错误带来的影响;除关键词信息外,也从语音信号中抽取声学特征,获得多模态信息并进行融合,以获取说话人状态,最终对说话人的意图进行准确而全面地理解
1 意图结构与理解框架
1.1 意图结构设计
本文考虑语音意图理解在智能家居场景下的应用。在智能家居控制场景中,说话人的意图主要是对家居设备进行命令控制。为有效表示用户意图,设计了表1所示的意图结构,包括命令内容、用户状态以及命令状态3部分
命令内
您可能关注的文档
- 培养兴趣是提高学生学习成绩有效手段之一.doc
- 培养初中学生英语写作能力几种方法.doc
- 培养初中学生英语学习兴趣之我见.doc
- 培养初中学生语文素养方法探微.doc
- 培养初中生数学应用意识策略思考.doc
- 培养动手操作能力优化数学课堂教学.doc
- 培养参及意识 体验快乐数学.doc
- 培养反思意识 提高思维品质.doc
- 培养学习兴趣 提高信息素养.doc
- 培养学习兴趣 提高历史课堂教学质量.doc
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
最近下载
- 闽教版4年级上册英语全册教学课件.pptx
- 浅谈当前我国建筑企业人力资源管理论文.docx VIP
- 浅谈建筑企业人力资源管理论文.docx VIP
- 广东省惠州市高2024届高三上学期第三次调研考试数学试题.pdf
- 病毒性肺炎影像.pptx VIP
- 新教材牛津译林版选择性必修第二册Unit1 The mass media 教学设计.pdf VIP
- (完整版)职业卫生培训试题含答案.pdf
- 初一第一学期第一次家长会课件.ppt VIP
- 惠州市2024届高三第三次调研考试(三调)思想政治试卷(含答案).pdf
- 2024-2025学年上海交通大学附属中高三上学期阶段测试3英语试卷含详解.pdf VIP
文档评论(0)