一种语音信号端点检测方法研究.docVIP

下载本文档

3
0
约1.17万字
约 6页
2017-08-11 发布于河南
举报
版权申诉

一种语音信号端点检测方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种语音信号端点检测方法研究

一种语音信号端点检测方法的研究吴亮春 ?潘世永（西华大学数学与计算机学院，四川成都? 610039） ? ??? 摘? 要? 在语音识别系统中，端点检测的误差会降低系统的识别率，进行有效准确的端点检测是语音识别的重要步骤。因此端点检测逐渐成为语音信号处理中的一个热点。本文提出了一种基于模型的Teager能量端点检测方法。实验证明，该算法比传统的能量过零率端点检测算法具有更高的识别率，能够更准确的检测出语音信号的端点。 ??? 关键词? 端点检测；模型；过零率 ? 1? 引言 ??? 语音是人类相互交流和通信最方便快捷的手段。如何高效地实现语音传输、存储或通过语音实现人机交互，是语音信号处理领域中的重要研究课题。而语音端点检测是语音分析、语音合成、语音编码、说话人识别中的一个重要环节，直接影响到后续工作的准确性。在实际应用中，首先通常要求对系统的输入信号进行判断，准确地找出语音信号的起始点和终止点，这样才能采集真正的语音数据，减少数据量和运算量，并减少处理时间。 ??? 在语音识别中，通常是先根据一定的端点检测算法，对语音信号中的有声片段和无声片段进行分割，而后再针对有声片段，依据语音的某些特征进行识别。研究表明，即使在安静的环境中，语音识别系统一半以上的识别错误来自端点检测器。因此，作为语音识别系统的第一步，端点检测的关键不容忽视，尤其是噪声环境下语音的端点检测，它的准确性很大程度上直接影响着后续的工作能否有效进行。可以说，语音信号的端点检测至今仍是有待进一步深入研究的课题。 2? 语音信号的时域特征 2.1 短时能量分析 ??? 语音信号的能量随着时间变化比较明显，一般清音部分的能量比浊音的能量小的多，所以在区分清音和浊音，有声段和无声段的应用中效果比较明显。对于信号{x（n）}，短时能量的定义如下： ??? 式中，， En表示在信号的第n个点开始加窗函数时的短时能量。通过上式可以看出，短时能量式语音信号的平方经过一个线性低通滤波器的输出，该线性低通滤波器的单位冲激响应为h（n）。 ??? 由于短时能量是对信号进行平方运算，因而增加了高低信号之间的差距，在一些应用场合并不合适。解决这个问题的简单方法是采用短时平均幅值来表示能量的变化，其公式为 ? 2.2 短时平均过零率 ??? 顾名思义，短时平均过零率是指每帧内信号通过零值的次数，对于离散语音信号，短时平均过零率实质上就是信号采样点符号变化的次数。它有两个重要应用：第一，用于粗略地描述信号地频谱特性。第二，就是与短时能量相结合判断语音起止点的位置，即进行端点检测，其定义为： w（n-m）为窗函数，定义为：? ? Sgn[]是符号函数，即 3? 端点检测 3.1 端点检测介绍 ??? 语音信号起止点的判别是任何一个语音识别系统都必不可少的组成部分。因为只有准确的找出语音段的起始点和终止点，才有可能使采集到的数据是真正要分析的语音信号，这样不但减少了数据量、运算量和处理时间，同时也有利于系统识别率的改善。人的声音分为清音和浊音两种，浊音为声带振动发出，对应的语音信号有幅度高、周期性明显的特点，而清音则不会有声带的振动，只是靠空气在口腔中的摩擦、冲击或爆破而发声。 ??? 常用的端点检测方法一般是基于特征提取的门限判决法。门限比较方法提取每帧的特征，将该特征和设定的门限进行比较或是采取某种判决机制来判断。 ??? 在语音识别中，基于平均幅值（能量）－过零率的端点检测是最常用的语音端点检测方法之一，它具有明确的物理意义，计算简单，因此在实际端点检测中得到了广泛的应用；同时，也存在缺点，其中最根本的问题是判决门限往往要通过经验值来确定. 3.2? 双门限端点检测算法 ??? 基于平均幅值（能量）－过零率的端点检测一般使用2级判决法：首先用短时平均幅值进行第一次判别；然后在此基础上用短时平均过零率进行第二次判别。在用短时能量进行第一次判别时，为了不会将语音能量的局部下降点错误地当作起止点，常采用双门限比较的方法。 ??? 图1为平均幅值（能量）－过零率的端点检测判决示意图。首先根据语音短时能量En的轮廓先取1个较高的门限M1，语音短时能量大多数情况下都在此门限之上。这样可以进行1次粗判：语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外（即AB段之外）；然后，根据背景噪声的平均能量确定1个较低的门限M2，并从A点往左、B点往右搜索，分别找到短时能量包络第一次与门限M2相交的两个点：C和D，CD段就是采用双门限方法根据短时平均幅值所判定的语音段。以上只是完成了第一级判决。接着要进行第二级判决，这次是以短时平均过零率Zn为标准，从C点往左、D点往右搜索，找到短时平均过零率第一次低于某个门限M3R2点：E和F，这便是语音段的起始点。图1? 短时平均幅值（能量）——过零率的