大词汇量连续语音识别中的似然率快速算法及其应用论文.pdfVIP

大词汇量连续语音识别中的似然率快速算法及其应用论文.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大词汇量连续语音识别中的似然率快速算法及其应用 蔡骏,许海云,胡益平,史晓东 厦门大学计算机科学系人工智能研究所,福建省厦门市,361005 e·mail:mikecai@xmu.edu.cn 摘要:本文分析了基于多维混合高斯概率密度函数HMM的语音识别系统中似然率计算 的时间开销,在此基础上论述了用于似然率快速计算的部分距离消去算法、最佳混合预测算 法和特征矢量元素重排算法。实验结果表明,将这三种快速算法结合在一起加以应用,可显 著地降低似然率计算的时间开销。 关键词:连续语音识别最大似然估计隐马尔可夫模型近邻搜索算法 1.引言 在大词汇量连续语音识别(LvcsR)系统中,语音模型的实现目前大多采用了多维混 合高斯概率密度函数HMM技术【l’2J。对于这样的系统来说,识别正确率是以大量的计算开 销为代价的,这就使得识别速度难以达到实际应用的实时性要求。因此十分有必要研究、应 用多维混合高斯概率密度函数HMM的快速算法,在保证识别正确率的前提下降低识别过程 的时间开销。 本文首先讨论了基于多维混合高斯概率密度函数HMM的语音识别系统中似然率快速 search)的部分距离 算法的研究背景,介绍用于似然率计算快速近邻搜索(nearest.neighbor distance 消去(partial elimination,PDE)算法。在此基础生,论述了似然率计算的最佳混合 预测(bestmixture prediction,BMP)算法和特征矢量元素重排(featurecomponentreordering, FCR)算法。最后,介绍了上述三种算法的测试实验环境,给出了初步的实验结果和结论。 2.似然率计算 在基于多维混合高斯概率密度函数HMM的语音识别系统中,状态为S时系统观察矢量 x,,的似然率被视为若干具有高斯分布的概率密度函数的加权和: pk,is)=∑M六Pkk), (1) 这里,M是参与混合的高斯分量的个数。氕是各高斯分量的权重,满足氕≥D且∑氕=J『。 k=| 参与混合的各高斯概率密度函数为: 小)毒卉唧B¨砧譬¨砧], ㈥ 其中,D是观察矢量的维数,以和三七分别表示各高斯分_:爨的均傅篝量和协方差矩阵。 在上述的似然率计算模型中,对于每个状态都要进行M个混合高斯分量的计算,M的 值往往相当大,取值范围通常为464嘲。另外,对予各个系统状态,观察矢量序列中每一 l顷数据所对应的所有高斯概率密度函数都必须加以重估。因此,上述的似然率计算是识别系 统中计算开销最大的步骤之一。对于大词汇量识别任务,似然率计算所花费的时间占总识别 时间开销的30%-一70%D!;对于中、小词汇量的识别任务,这项指标往往高达90%。 近年来,人们提出了一系列降低似然率计算时间开销的算法,其中包括:采用线性判 diseriminant 别分析(1inear analysis,LDA)【4l来降低特征矢量的维数;在矢量量化的基础上, 通过对高斯分量进行聚类来实现似然率的快速计算【5】;采用七维二叉搜索树对空间进行划分, 从而提高似然率计算的效率16l;将似然率计算看作是近邻搜索,采用投影搜索技术在高维空 间中确定最近点171。尽管这些算法都有效地降低了似然率计算的时间开销,但同时也导致了 识别正确率的下降,而且需要占用更多的内存空间。此外,这些算法的引入还需要对底层的 识别模块进行改造。 3.似然率计算的近邻逼近和部分距离消去算法 从式(1)和(2)可以看出,多维混合高斯概率密度函数HMM模型的建立具有较高的 时间复杂度。在实际应用中,由于数据的稀疏性,为计算方便起见,往往采用对角协方差矩 阵取代完全协方差矩阵来进行各个状态下的似然率计算,因而有 p(xots)=k兰=l南唧障学] ㈤

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档