基于案例推理的汉语关键词检出方法研究-计算机科学与技术专业论文.docxVIP

基于案例推理的汉语关键词检出方法研究-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Classified Index : TP391.42 U.D.C. : 681.3 Dissertation for the Master Degree in Engineering Case-Based Reasoning Solution For Chinese Keyword Detection Candidate: Zhou Dali Supervisor: Associate Prof. Zheng Tieran Academic Degree Applied for: Master of Engineering Specialty: Computer Science and Technology Date of Defence: June, 2013 Degree-Conferring-Institution : Harbin Institute of Technology 哈尔滨工业大学工程硕士学位论文 哈尔滨工业大学工程硕士学位论文 摘 要 关键词检出(KWS)就是在无限制的语音流中识别检出给定词汇的一种语 音识别技术,它是自动语音识别(ASR)技术的一种。相比较于连续语音识 别(CSR)技术而言,由于它只关注给定词在语音中是否存在,而不用识别 全部语音内容,其实现相对容易。由于连续语音识别技术尚未达到实用水 平,关键词检出技术在各类应用中扮演了重要的角色,如对话系统、语音文 档检索、语音内容监控等。 本文主要针对传统的基于 HMM 的关键词检出方法的不足,尝试提出一 种基于持续学习策略的关键词检出新方法。在基于 HMM 的关键词检出技术 中,声学模型是主要识别依据,而声学模型可以看作是训练语料中所蕴含的 关于人类发音的声学知识的精简表达。然而在实际应用中,关键词检出性能 普遍受到声学模型与待识语料不匹配问题的严重困扰。这主要是因为训练语 料中所包含声学知识并不完备,一旦待识语料中出现了一些未被其涵盖的声 学现象,检出性能就会严重下降。考虑到人类的发音及声学表示极易受到各 种因素的影响,构建一个具有完备声学知识的训练语料集是不可能的,因而 不匹配问题也就无法根本消除。本文的解决方法是,将服务提供商或用户也 拉入到为关键词检出系统累积声学知识的任务中来,利用他们提供的识别结 果的反馈,不断增加和修正系统已掌握的声学知识,使其不断向完备这个目 标逼近。这需要一种具有持续学习能力的关键词检出技术,而传统的基于 HMM 的方法显然无法满足这一要求。为此,本文提出了一种基于案例推理 框架的关键词检出方法。 本文首先介绍了目前主流的基于隐马尔科夫(HMM) 模型的关键词检出 系统的建立方法。并通过实验给出了此基线系统的性能。然后介绍本文提出 的基于案例推理(CBR)的关键词检出方法。首先讨论了选择 CBR 框架的原 因。然后详细地描述了该框架中的各部分的具体实现方法:基于声学符号聚 类的关键词案例的表示方法;案例库的树形索引方法;基于弹性匹配原则的 案例匹配方法;案例库的搜索算法及搜索结果的关键词后验概率估计;反馈 的处理方法。在本文的第四章,对此关键词检出方法进行了改进,在声学符 号的聚类环节,充分考虑了此声学符号在声学特征空间和语言语义空间的可 区分性要求,以及符号集尺寸对关键词案例搜索效率的影响,提出了一种复 合的聚类准则,并基于合并式层次聚类算法来聚类声学符号集。文中通过实 I II II 验验证了该关键词检出方法的性能,并证实了该方法具有持续学习能力。 关键词:关键词检出;隐马尔科夫模型;案例推理;聚类算法;持续学习 PAGE PAGE III Abstract Keyword spotting (KWS) detects specific word in an unconstrained speech stream. It is a technology in the field of Automatic Speech Recognition (ASR). Comparing with Continue Speech Recognition (CSR) technology, it is easier to be constructed for being unnecessary to recognize all contexts of the speech. Moreover, due to CSR technology’s incapability to some application, KWS plays a very important role in them, such as: dialogue system, spoken document retrieval and speech c

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档