- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大词汇量连续语音识别中的似然率快速算法及其应用
蔡骏,许海云,胡益平,史晓东
厦门大学计算机科学系人工智能研究所,福建省厦门市,361005
e·mail:mikecai@xmu.edu.cn
摘要:本文分析了基于多维混合高斯概率密度函数HMM的语音识别系统中似然率计算
的时间开销,在此基础上论述了用于似然率快速计算的部分距离消去算法、最佳混合预测算
法和特征矢量元素重排算法。实验结果表明,将这三种快速算法结合在一起加以应用,可显
著地降低似然率计算的时间开销。
关键词:连续语音识别最大似然估计隐马尔可夫模型近邻搜索算法
1.引言
在大词汇量连续语音识别(LvcsR)系统中,语音模型的实现目前大多采用了多维混
合高斯概率密度函数HMM技术【l’2J。对于这样的系统来说,识别正确率是以大量的计算开
销为代价的,这就使得识别速度难以达到实际应用的实时性要求。因此十分有必要研究、应
用多维混合高斯概率密度函数HMM的快速算法,在保证识别正确率的前提下降低识别过程
的时间开销。
本文首先讨论了基于多维混合高斯概率密度函数HMM的语音识别系统中似然率快速
search)的部分距离
算法的研究背景,介绍用于似然率计算快速近邻搜索(nearest.neighbor
distance
消去(partial elimination,PDE)算法。在此基础生,论述了似然率计算的最佳混合
预测(bestmixture
prediction,BMP)算法和特征矢量元素重排(featurecomponentreordering,
FCR)算法。最后,介绍了上述三种算法的测试实验环境,给出了初步的实验结果和结论。
2.似然率计算
在基于多维混合高斯概率密度函数HMM的语音识别系统中,状态为S时系统观察矢量
x,,的似然率被视为若干具有高斯分布的概率密度函数的加权和:
pk,is)=∑M六Pkk), (1)
这里,M是参与混合的高斯分量的个数。氕是各高斯分量的权重,满足氕≥D且∑氕=J『。
k=|
参与混合的各高斯概率密度函数为:
小)毒卉唧B¨砧譬¨砧], ㈥
其中,D是观察矢量的维数,以和三七分别表示各高斯分_:爨的均傅篝量和协方差矩阵。
在上述的似然率计算模型中,对于每个状态都要进行M个混合高斯分量的计算,M的
值往往相当大,取值范围通常为464嘲。另外,对予各个系统状态,观察矢量序列中每一
l顷数据所对应的所有高斯概率密度函数都必须加以重估。因此,上述的似然率计算是识别系
统中计算开销最大的步骤之一。对于大词汇量识别任务,似然率计算所花费的时间占总识别
时间开销的30%-一70%D!;对于中、小词汇量的识别任务,这项指标往往高达90%。
近年来,人们提出了一系列降低似然率计算时间开销的算法,其中包括:采用线性判
diseriminant
别分析(1inear analysis,LDA)【4l来降低特征矢量的维数;在矢量量化的基础上,
通过对高斯分量进行聚类来实现似然率的快速计算【5】;采用七维二叉搜索树对空间进行划分,
从而提高似然率计算的效率16l;将似然率计算看作是近邻搜索,采用投影搜索技术在高维空
间中确定最近点171。尽管这些算法都有效地降低了似然率计算的时间开销,但同时也导致了
识别正确率的下降,而且需要占用更多的内存空间。此外,这些算法的引入还需要对底层的
识别模块进行改造。
3.似然率计算的近邻逼近和部分距离消去算法
从式(1)和(2)可以看出,多维混合高斯概率密度函数HMM模型的建立具有较高的
时间复杂度。在实际应用中,由于数据的稀疏性,为计算方便起见,往往采用对角协方差矩
阵取代完全协方差矩阵来进行各个状态下的似然率计算,因而有
p(xots)=k兰=l南唧障学]
㈤
文档评论(0)