基于语音存在概率的语音活动检测方法.docVIP

下载本文档

6
0
约2.73千字
约 6页
2019-04-27 发布于广东
举报
版权申诉

基于语音存在概率的语音活动检测方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语音存在概率的语音活动检测方法【论文关键词】语音增强语音活动检测语音存在概率【论文摘要】首先总结了几种常见的语音活动检测 (VAD)方法，然后从计算每帧每个频率点的语音存在概率出发，提出了一种新的VAD方法，并就其中的一些参数选择问题进行了讨论。最后给出新方法与传统方法实验结果对比。 1引言日常生活中，人们说话有间隙，有必要对一段语音进行检测，以确定哪些时间上是有语音，哪些时间上没有语音。在语音编码中，语音活动检测(VoiceActi vityDetect ion, VAD)用来区分有语音段和无语音段。如果一段时间被判断为无语音段，则不需对其编码。这样可减少信道带宽的占用，使有限的带宽得到合理使用。在语音增强中，VA D用来判断一段时间上是否存在语音。如果某段时间内不存在语音，那么这段时间就只有噪声存在，因此可以被用来估计和更新噪声功率谱。在语音增强领域，VAD的性能往往直接影响到最后的结果。因为目前多数的语音增强算法必须对噪声功率谱进行估计，如果噪声功率谱估计不准确，就会导致最后的增益函数估计不准确。准确的噪声功率谱估计须建立在准确的纯噪声段判断的基础上。笔者提出了一种新的VAD方法，这种方法建立在每帧每个频率点的语音存在概率的基础上。根据概率大小判断是否存在语音。 2语音存在概率估计为进行VAD,首先对每帧每个频率点进行语音存在概率估计，该估计大致分为两步：（1）估计是否存在强语音成分；（2）估计语音不存在概率和语音存在概率。含噪语音由纯净语音和噪声叠加而成，所以假设 Y （k，1） =X （k，1 ） +D （k，1）（1 ）其中，Y （k, 1）为含噪信号，X （k, 1）为纯净语音，D （k，1）为噪声，k为某一帧的频率点编号，1为帧编号。估计是否存在强语音成分含噪语音中某些地方会有明显的语音存在，由于后面估计语音不存在概率需要用到相邻帧的信息，所以强语音成分存在会严重影响到语音不存在概率估计。因此有必要先对某帧是否存在强语音进行判断，如果是，那么在下面的语音不存在概率估计过程中将不会用到此帧的信息。对于含噪信号，要进行两次平滑，一次是帧内平滑，一次是帧间平滑。首先进行帧内平滑其中，a s为平滑参数且0 根据Yrnin和按照下面的判决准则，判断当前帧是否含有强语音成分其中，“0 ”为有强语音存在，“1”为没有强语音存在， y0=, C0=o 估计语音不存在概率和语音存在概率利用前面强语音成分判断的结果，可通过先排除含有强语音成分的频率点，再进行帧内平滑和帧间平滑，最后得到对应于每帧每个频率点的估计量。这个估计量反映了该帧每个频率点上能量情况。如某顿是无语音帧，则其各频率点上的估计量将会较小。再通过对一段区间上搜索最小估计量，将搜索到的结果作为参照标准。当某帧某个频率点的估计量超过参照标准的若干倍时，即判定此处含有语音，否则就不含有语音。首先，利用是否存在强语音的判决结果进行新的帧内平滑和帧间平滑。先进行帧内平滑的计算用到了 I （k，1），排除了强语音存在的频率点。再进行帧间平滑然后同前面估计是否存在强语音成分一样，进行区间最小值搜索定义 1 ) =E{D (k, 1) 2}o由于按照式(1 3)计算语音存在概率需要估计先验信噪比€和后验信噪比Y，如果估计不准确，必然导致VAD结果不准确。故这里对此进行简化，直接用1减去q (k，1 )作为语音存在概率p (k, 1)。 3利用语音存在概率进行VAD 检测指标计算估计出语音存在概率后，还不能直接用来进行VA D，因为这些概率是针对每一个频率点的，需要将这些信息转换为某一帧的评价量。通过对语音存在概率随时间和频率点分布的观察，发现有2项指标可被用来比较准确地辨别出有声段和无声段，分别是其中，pt为某一帧所有频率点的语音存在概率之和， pe为某一帧上语音存在概率为1的所有频率点个数，M为有频率点数。但是，实验表明，这两个参数虽然总体上可以看出哪些是无声段哪些是有声段，但起伏可能非常剧烈，所以需要进行平滑处理。设定其中，采用了当前帧前面4帧的数据进行平滑。参数设定判断是否存在语音主要看式（17） ~ （18）中 2个指标是否超过某个门限。具体为其中，式（1 9）?（20）对一段含噪信号最开始一段的 2个指标求平均，然后利用式（21）?（2 2）得到正式的门限；W为每帧有频率点数。其判断结果其中，“1 ”为有语音，“0”为无语音。 4实验结果为评价该VAD方法的性能，设定如下指标含噪信号是人工合成的，其中纯净信号来自一段评书噪声信号取自Noisex-92噪声库，包括白噪声、粉红噪声、 F16战斗机噪声、沃尔沃汽车噪声、闲聊