说话验证的信息源.pdfVIP

下载本文档

0
0
约1.37万字
约 10页
2018-04-06 发布于天津
举报
版权申诉

说话验证的信息源.pdf

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

说话验证的信息源

清华大学工学硕士学位论文钟林：汉语语音识别说话验证第三章说话验证的信息源在第二章2.4.2 中，提到以互信息I (A, Z ) = H (A) − H (A | Z ) 来衡量验证使识别结果正确性的不确定度减小那么验证过程必然需要额外的信息以减小这种不确定度。所谓额外是指识别过程没有利用或者没有充分利用的信息。本章将研究这样的信息源(Knowledge Sources)，主要是基于声学模型的信息源。其中的一部分将在后续章节中进一步研究论文语音识别系统在HMM 的框架中实现，对识别而言，判决的根据是各个候选（Candidate ）的似然度得分，而且采用的是谁大取谁（Winner-take-all ）的判决方式。要得到候选的似然度得分，需要将输入语音与识别任务的声学模型和语言模型进行匹配。而对匹配的结果，识别判决仅仅使用了最后的匹配得分，而忽略了其他许多信息。另一方面，识别任务的声学和语言学模型只对合法的语音是适用的，也就是说，它们只告诉我们正确的语音在统计上应该是什么样，而没有关于非法声响的统计特征。另一方面，它们也不能告诉我们，如果合法语音被识别错误，那么错误会有哪些统计特征。而这些统计特征对拒绝非法声响和误识是至关重要的。因此，在考虑额外信息源时应该至少注意到两个方面，1）识别过程中忽略的信息；2 ）对误识和非法声响统计建模（这两类信息源也并非泾渭分明，例如在线垃圾模型就可以同时归到两个方面） 25 清华大学工学硕士学位论文钟林：汉语语音识别说话验证 3.1 识别过程中忽略的信息识别过程中，语音与系统的声学模型（一般是 HMM ）和语言模型对准（译码，Decoding ），最后根据匹配的逐帧（Frame-wise ）积累距离判断选取哪个匹配路径，哪个候选结果。而帧只是输入语音最基本单元，逐帧积累的匹配距离把各个语音帧独立并且等同考虑（Independently and Equally ），实际上忽略了语音的结构信息（Structural Information）。因此在验证中，将尽量恢复和利用由译码产生的语音结构信息，从帧到HMM 状态，从状态到HMM （整词或半音节），在从半音节到音节，从音节到关键词，最后到整个输入语音。分层次地（Hierarchically ）利用信息，这是贯穿本论文工作的一个基本思路 HMM 迹（Trace ）用HMM 识别语音，由于其内在的Viterbi 动态规划过程，把输入语音与HMM 的某个合法的状态序列对应起来。对于通常采用的简单HMM 结构（无状态跨越和回跳，自左往右），Viterbi 对准将语音分割为对应着各个状态的段，由此产生各个 HMM 的迹（Trace ）（Mathan and Miclet, 1992 ），包括各状态分到的语音帧数，分到各状态语音段对应的平均值等。如图3-1，一个3 状态自左向右简单HMM 及其产生的迹迹特征矢量图 3-1 迹在状态的层次上考虑了语音的结构信息，而状态内的语音段求平均对语音模型特征的损失又不算太大，还把动态的语音映射成静态的模式，非常有利于采用一些常用的分布估计手段估计其概率分布在第四章中将研究用人工神经网络估计迹特征的后验概率分布，并用后验概率进行数码语音识别的验证 26 清华大学工学硕士学位论文钟林：汉语语音识别说话验证竞争模型的似然度得分在语音与声学模型匹配的过程中，一帧语音需要和许多模型去匹配，然后选将导致全局匹配距离最小的模型作为当前帧的模型。对识别来说，最后只考虑了最优的一条路径中模型与语音的匹配得分，而与这些模型竞争的那些模型的匹配得分 Scorings of Competing Models）被忽略。在线垃圾模型