大词汇量连续语音识别中的似然率快速算法及其应用论文.pdfVIP

下载本文档

4
0
约7.35千字
约 4页
2017-06-13 发布于广东
举报
版权申诉

大词汇量连续语音识别中的似然率快速算法及其应用论文.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大词汇量连续语音识别中的似然率快速算法及其应用蔡骏，许海云，胡益平，史晓东厦门大学计算机科学系人工智能研究所，福建省厦门市，361005 e·mail：mikecai@xmu．edu．cn 摘要：本文分析了基于多维混合高斯概率密度函数HMM的语音识别系统中似然率计算的时间开销，在此基础上论述了用于似然率快速计算的部分距离消去算法、最佳混合预测算法和特征矢量元素重排算法。实验结果表明，将这三种快速算法结合在一起加以应用，可显著地降低似然率计算的时间开销。关键词：连续语音识别最大似然估计隐马尔可夫模型近邻搜索算法 1．引言在大词汇量连续语音识别(LvcsR)系统中，语音模型的实现目前大多采用了多维混合高斯概率密度函数HMM技术【l’2J。对于这样的系统来说，识别正确率是以大量的计算开销为代价的，这就使得识别速度难以达到实际应用的实时性要求。因此十分有必要研究、应用多维混合高斯概率密度函数HMM的快速算法，在保证识别正确率的前提下降低识别过程的时间开销。本文首先讨论了基于多维混合高斯概率密度函数HMM的语音识别系统中似然率快速 search)的部分距离算法的研究背景，介绍用于似然率计算快速近邻搜索(nearest．neighbor distance 消去(partial elimination，PDE)算法。在此基础生，论述了似然率计算的最佳混合预测(bestmixture prediction，BMP)算法和特征矢量元素重排(featurecomponentreordering， FCR)算法。最后，介绍了上述三种算法的测试实验环境，给出了初步的实验结果和结论。 2．似然率计算在基于多维混合高斯概率密度函数HMM的语音识别系统中，状态为S时系统观察矢量 x，，的似然率被视为若干具有高斯分布的概率密度函数的加权和： pk，is)=∑M六Pkk)， (1) 这里，M是参与混合的高斯分量的个数。氕是各高斯分量的权重，满足氕≥D且∑氕=J『。 k=| 参与混合的各高斯概率密度函数为：小)毒卉唧B¨砧譬¨砧]，㈥其中，D是观察矢量的维数，以和三七分别表示各高斯分_：爨的均傅篝量和协方差矩阵。在上述的似然率计算模型中，对于每个状态都要进行M个混合高斯分量的计算，M的值往往相当大，取值范围通常为464嘲。另外，对予各个系统状态，观察矢量序列中每一 l顷数据所对应的所有高斯概率密度函数都必须加以重估。因此，上述的似然率计算是识别系统中计算开销最大的步骤之一。对于大词汇量识别任务，似然率计算所花费的时间占总识别时间开销的30％-一70％D!；对于中、小词汇量的识别任务，这项指标往往高达90％。近年来，人们提出了一系列降低似然率计算时间开销的算法，其中包括：采用线性判 diseriminant 别分析(1inear analysis，LDA)【4l来降低特征矢量的维数；在矢量量化的基础上，通过对高斯分量进行聚类来实现似然率的快速计算【5】；采用七维二叉搜索树对空间进行划分，从而提高似然率计算的效率16l；将似然率计算看作是近邻搜索，采用投影搜索技术在高维空间中确定最近点171。尽管这些算法都有效地降低了似然率计算的时间开销，但同时也导致了识别正确率的下降，而且需要占用更多的内存空间。此外，这些算法的引入还需要对底层的识别模块进行改造。 3．似然率计算的近邻逼近和部分距离消去算法从式(1)和(2)可以看出，多维混合高斯概率密度函数HMM模型的建立具有较高的时间复杂度。在实际应用中，由于数据的稀疏性，为计算方便起见，往往采用对角协方差矩阵取代完全协方差矩阵来进行各个状态下的似然率计算，因而有 p(xots)=k兰=l南唧障学] ㈤