孤立词语音评测关键技术研讨.pdf

下载文档 降价啦

10
0
约4.77千字
约 4页
2018-01-12 发布于广东
举报
版权申诉
保障服务

孤立词语音评测关键技术研讨.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十届全国有线电视技术研讨会论文集．．377．．孤立词语音评测关键技术研究中国传媒大学信，电工程学院任刁＼芳戴志强韩瑞杰摘要：如何在包含文本、音频、视频等众多多媒体信息中找到想要的信息，这是多媒体检索问题。也是一个亟待解决的问题。目前。应用于多媒体检索的主要是视频检索和音频检索。运用孤立词语音评测技术进一步完善音频检索的发展将是一个崭新的课题。本文详细介绍了孤立词语音评测中用到的几项关键技术。关键词：多媒体检索语音识别语音评测 1 引言随着计算机网络的飞速发展，互联网上各种各样的信息13益增多，这其中包括文本、音频、视频等多媒体信息。如何在如此大量的多媒体信息中找到想要的信息，这就是多媒体的检索问题。目前，应用于多媒体检索的主要是视频检索和音频检索。相比视频检索，音频检索的发展有些缓慢。运用孤立词语音评测技术来进一步完善音频检索的发展将是一个极有创新性和挑战性的课题。 2基于孤立词语音识别的评测系统 2．1 语音信号的预处理语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A／D变换及编码；预处理一般包括预加重、加窗和分帧等。由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB／倍程跌落，即频谱变的平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析或声道参数分析。它一般是一阶的数字滤波器： H(z)=l—Ixz‘1 (1) 这里皿值接近于1。进行过预加重数字滤波处理后，接下来就要进行加窗分帧处理。一般每秒的帧数约为33-100帧，视实际情况而定。分帧虽然可以采用连续分段的方法，但一般要采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-1／2。分帧是用可移动的有限长度窗口进行加权的方法来实现的，也就是用一定的窗函数w(n)来乘s(n)，从而形成加窗语音信号： S声S(n)×∞(n) (2) 这样，经过上面介绍的预处理过程后，语音信号就已经被分割成一帧一帧的加过窗函数的短时信号了，然后再把每一个短时语音帧看成平稳的随机信号，利用数字信号处理技术来提取语音特征参数。在进行处理时，按帧从数据区取出数据，处理完成后再取下一帧，等等，最后得到由每一帧参数组成的语音特征参数的时间序列。 2_2特征参数提取技术 -．378—．第十届全国有线电视技术研讨会论文集图1基于HMM的孤立词识别调、声调等。这里只重点提一下MFCC参数。 MFCC是目前大多数语音识别系统中广泛使用的特征参数，它是基于人耳的听觉特性，人耳所听到的声音的高低与声音的频率并不成线性正比关系，而用Mel频率尺度则更适合人耳的听觉特性。所谓Mel频率尺度，它的值大体上对应于实际频率的对数分布关系。Mel频率表达了一种常用的从语音频率到“感知频率”的对应关系，这更符合人耳的听觉特性，表达式为， f蒯=259519(1+f／700) (3) 2．3隐马尔可夫模型隐马尔可夫模型(HMM)，它是目前应用最为成功的一种语音识别模型和算法，是目前所能见到的各种性能优良的语音的识别系统几乎无一例外地采用了这种模型。HMM应用到语音识别系统时经常会遇到的3大基本问题。 (1)识别问题：对于给定的观察序列0和模型入=(竹，A，B)，如何快速有效的获得观察符号序列的输出概率 P(OIh)，一般采用前向一后向算法。 (2)译码问题：识别和训练中都会有译码问题。对于给定的观测序列0和模型入=(可，A，B)，求模型入=(耵，算法。最大值，一般采用Baum-Welch算法。 3