基于短时能量的语音信号端点检测.docVIP

下载本文档

79
0
约3.68千字
约 6页
2018-03-16 发布于北京
举报
版权申诉

基于短时能量的语音信号端点检测.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于短时能量的语音信号端点检测　　摘要：语音信号端点检测是语音信号的预处理，正确的语音信号端点检测结果直接影响语音识别等后续工作的运算量和准确率。本文介绍了时域方法中基于短时能量的语音信号端点检测方法，并用三种不同的短时能量计算方式和五种短时能量阈值进行了端点检测实验。　　关键词：短时能量；端点检测；阈值　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)18-20ppp-0c 　　　　Speech Signal End Point Detection Based on Short-term Energy 　　SHI Hai-yan 　　(Computer Center, Shaoxing University, Shaoxing 312000, China) 　　Abstract: Speech signal end point detection is the speech signal pre-processing. The correct speech signal end point detection will straightforward affect speech recognitioncomputational and correct rate. This paper introduce the end point detection based on short-term energy of time-domain methods. In our experiments, we use three ways to calculate the short-term energy and five ways to determine the short-term energy threshold. The experiments’ results show the differents short-term energy calculate way and short-term energy threshold produce the differents end point detection. 　　Key words: short-term energy; end point detection; threshold 　　　　1 引言　　　　在语音处理中，端点检测是一个关键问题，端点检测（End Point Detection，简称EPD）的目的是要决定语音信号开始和结束的位置，以去除信号开始和结束时的空白噪声。语音信号的端点检测在语音编码、语音识别、语音增强、说话人识别等中起着非常重要的作用，直接影响语音识别等后续工作的运算量和准确率。通常使用的端点检测方法有能量阈值[1]、基音检测[2]、倒谱分析[3]以及频谱分析等。常见的端点检测方法亦可用分类：时域方法、频域方法[4]。本文着重介绍时域方法中基于短时能量的语音信号端点检测方法。　　　　2 时域分析和短时能量　　　　2.1 时域分析　　语音的时域分析采用时域波形图，横坐标是时间，纵坐标是幅值。时域分析方法具有计算简单、运算量小、物理意义明确等优点[6]。语音信号具有时变特性，即在一个短时间范围内其特性相对稳定，因而可以将其看作是一个短时平稳过程。我们对语音信号进行分析时，首先将语音信号切成一帧一帧，每帧大小大约是20~30ms，语音信号特征参数是分帧提取的，每帧特征参数构成一个矢量，所以语音信号特征是一个矢量序列。帧太大就不能得到语音信号随时间变化的特性，帧太小就不能提取出语音信号的特征，每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大，帧之间就要有重叠，帧叠往往是帧长的1/2或1/3。帧叠大，相应的计算量也大。　　短时能量代表声音的尺寸，可由声音信号的振幅来类比。使用短时能量进行端点检测是最简单的方法，计算量少，其中不同的短时能量的计算方式会造成端点检测结果的不同。下面介绍三个短时能量的计算公式。　　2.2 短时能量　　原语音信号 S(n)加窗后的语音信号Sw(n)(Sw(n)的非零区间为0～N-1）的短时能量计算公式如下：　　　　公式（2）中的δ为一个无穷小量，是为防止对0取对数而加入的，公式（3）中的median为每帧帧向量的中位值。我们往往对语音信号进行加窗后再进行分帧、特征提取等处理，其中窗函数可采用方窗、哈明窗[5]。　　　　3 基于短时能量的端点检测　　　　在端点检测中短时能量作为唯一的语音特征，是最简单的一种方法，我们只需要确定一个能量阈值，任一帧的短时能量只要小于这个被确定的阈值就认为