说话验证的信息源.pdfVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
说话验证的信息源

清华大学工学硕士学位论文 钟 林:汉语语音识别说话验证 第三章 说话验证的信息源 在第二章2.4.2 中,提到以互信息I (A, Z ) = H (A) − H (A | Z ) 来衡量验证使识别 结果正确性的不确定度减小 那么验证过程必然需要额外的信息以减小这种不确定 度。所谓额外是指识别过程没有利用或者没有充分利用的信息。本章将研究这样的 信息源(Knowledge Sources),主要是基于声学模型的信息源。其中的一部分将在后 续章节中进一步研究 论文语音识别系统在HMM 的框架中实现,对识别而言,判决的根据是各个候 选(Candidate )的似然度得分,而且采用的是谁大取谁(Winner-take-all )的判决 方式。要得到候选的似然度得分,需要将输入语音与识别任务的声学模型和语言模 型进行匹配。而对匹配的结果,识别判决仅仅使用了最后的匹配得分,而忽略了其 他许多信息。另一方面,识别任务的声学和语言学模型只对合法的语音是适用的, 也就是说,它们只告诉我们正确的语音在统计上应该是什么样,而没有关于非法声 响的统计特征。另一方面,它们也不能告诉我们,如果合法语音被识别错误,那么 错误会有哪些统计特征。而这些统计特征对拒绝非法声响和误识是至关重要的。因 此,在考虑额外信息源时应该至少注意到两个方面,1)识别过程中忽略的信息;2 ) 对误识和非法声响统计建模(这两类信息源也并非泾渭分明,例如在线垃圾模型就 可以同时归到两个方面 ) 25 清华大学工学硕士学位论文 钟 林:汉语语音识别说话验证 3.1 识别过程中忽略的信息 识别过程中,语音与系统的声学模型(一般是 HMM )和语言模型对准(译 码,Decoding ),最后根据匹配的逐帧(Frame-wise )积累距离判断选取哪个匹配路 径,哪个候选结果。而帧只是输入语音最基本单元,逐帧积累的匹配距离把各个语 音帧独立并且等同考虑(Independently and Equally ),实际上忽略了语音的结构信 息(Structural Information)。因此在验证中,将尽量恢复和利用由译码产生的语音 结构信息,从帧到HMM 状态,从状态到HMM (整词或半音节),在从半音节到 音节,从音节到关键词,最后到整个输入语音。分层次地(Hierarchically )利用信 息,这是贯穿本论文工作的一个基本思路 HMM 迹 (Trace ) 用HMM 识别语音,由于其内在的Viterbi 动态规划过程,把输入语音与HMM 的某个合法的状态序列对应起来。对于通常采用的简单HMM 结构(无状态跨越和 回跳,自左往右),Viterbi 对准将语音分割为对应着各个状态的段,由此产生各个 HMM 的迹(Trace )(Mathan and Miclet, 1992 ),包括各状态分到的语音帧数,分到 各状态语音段对应的平均值等。如图3-1,一个3 状态自左向右简单HMM 及其产 生的迹 迹特征矢量 图 3-1 迹在状态的层次上考虑了语音的结构信息,而状态内的语音段求平均对语音模 型特征的损失又不算太大,还把动态的语音映射成静态的模式,非常有利于采用一 些常用的分布估计手段估计其概率分布 在第四章中将研究用人工神经网络估计迹 特征的后验概率分布,并用后验概率进行数码语音识别的验证 26 清华大学工学硕士学位论文 钟 林:汉语语音识别说话验证 竞争模型的似然度得分 在语音与声学模型匹配的过程中,一帧语音需要和许多模型去匹配,然后选 将导致全局匹配距离最小的模型作为当前帧的模型。对识别来说,最后只考虑了最 优的一条路径中模型与语音的匹配得分,而与这些模型竞争的那些模型的匹配得分 Scorings of Competing Models)被忽略。在线垃圾模型

文档评论(0)

laolao123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档