- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语音存在概率的语音活动检测方法的论文.doc
基于语音存在概率的语音活动检测方法的论文
【 论文 关键词】语音增强 语音活动检测 语音存在概率
【论文摘要】首先 总结 了几种常见的语音活动检测(vad)方法,然后从 计算 每帧每个频率点的语音存在概率出发,提出了一种新的vad方法,并就其中的一些参数选择问题进行了讨论。最后给出新方法与传统方法实验结果对比。
1引言
日常生活中,人们说话有间隙,有必要对一段语音进行检测,以确定哪些时间上是有语音,哪些时间上没有语音。在语音编码中,语音活动检测(voice activitydetection,vad)用来区分有语音段和无语音段。如果一段时间被判断为无语音段,则不需对其编码。这样可减少信道带宽的占用,使有限的带宽得到合理使用。在语音增强中,vad用来判断一段时间上是否存在语音。如果某段时间内不存在语音,那么这段时间就只有噪声存在,因此可以被用来估计和更新噪声功率谱。在语音增强领域,vad的性能往往直接影响到最后的结果。因为目前多数的语音增强算法必须对噪声功率谱进行估计,如果噪声功率谱估计不准确,就会导致最后的增益函数估计不准确。准确的噪声功率谱估计须建立在准确的纯噪声段判断的基础上。
笔者提出了一种新的vad方法,这种方法建立在每帧每个频率点的语音存在概率的基础上。根据概率大小判断是否存在语音。
2语音存在概率估计
为进行vad,首先对每帧每个频率点进行语音存在概率估计,该估计大致分为两步:(1)估计是否存在强语音成分;(2)估计语音不存在概率和语音存在概率。.cOm含噪语音由纯净语音和噪声叠加而成,所以假设
y(k,l)=x(k,l)+d(k,l)(1)
其中,y(k,l)为含噪信号,x(k,l)为纯净语音,d(k,l)
为噪声,k为某一帧的频率点编号,l为帧编号。
2.1估计是否存在强语音成分
含噪语音中某些地方会有明显的语音存在,由于后面估计语音不存在概率需要用到相邻帧的信息,所以强语音成分存在会严重影响到语音不存在概率估计。因此有必要先对某帧是否存在强语音进行判断,如果是,那么在下面的语音不存在概率估计过程中将不会用到此帧的信息。
对于含噪信号,要进行两次平滑,一次是帧内平滑,一次是帧间平滑。首先进行帧内平滑
其中,αs为平滑参数且0lt;αslt;1。然后搜索d帧中各频率点的最小值,即smin(k,l)=min{s(k,l′)|l-d+1≤l′≤l}(4)根据 文献 [1]可找到bmin,满足e{smin(k,l)}=b-1min·λd(k,l)(5)也就是说可通过一个补偿因子bmin估计出当前帧的噪声功率谱。定义
根据γmin和ζ,按照下面的判决准则,判断当前帧是否含有强语音成分
其中,“0”为有强语音存在,“1”为没有强语音存在,γ0=4.6,ζ0=1.67。
2.2估计语音不存在概率和语音
存在概率利用前面强语音成分判断的结果,可通过先排除含有强语音成分的频率点,再进行帧内平滑和帧间平滑,最后得到对应于每帧每个频率点的估计量。这个估计量反映了该帧每个频率点上能量情况。如某帧是无语音帧,则其各频率点上的估计量将会较小。再通过对一段区间上搜索最小估计量,将搜索到的结果作为参照标准。当某帧某个频率点的估计量超过参照标准的若干倍时,即判定此处含有语音,否则就不含有语音。首先,利用是否存在强语音的判决结果进行新的帧内平滑和帧间平滑。先进行帧内平滑
的计算用到了i(k,l),排除了强语音存在的频率点。再进行帧间平滑
然后同前面估计是否存在强语音成分一样,进行区间最小值搜索
定义
l )=e{d(k,l)2}。由于按照式(13)计算语音存在概率需要估计先验信噪比ξ和后验信噪比γ,如果估计不准确,必然导致vad结果不准确。故这里对此进行简化,直接用1减去q(k,l)作为语音存在概率p(k,l)。
3利用语音存在概率进行vad
3.1检测指标计算
估计出语音存在概率后,还不能直接用来进行vad,因为这些概率是针对每一个频率点的,需要将这些信息转换为某一帧的评价量。通过对语音存在概率随时间和频率点分布的观察,发现有2项指标可被用来比较准确地辨别出有声段和无声段,分别是
其中,pt为某一帧所有频率点的语音存在概率之和,pe为某一帧上语音存在概率为1的所有频率点个数,m为有频率点数。但是,实验表明,这两个参数虽然总体上可以看出哪些是无声段哪些是有声段,但起伏可能非常剧烈,所以需要进行平滑处理。设定
其中,采用了当前帧前面4帧的数据进行平滑。
3.2参数设定
判断是否存在语音主要看式(17)~(1
您可能关注的文档
- 基于无线通信的列车控制技术与互联互通的论文.doc
- 基于智能卡技术的移动存储安全管理研究的论文.doc
- 基于最优互信息的特征选取的论文.doc
- 基于最新视觉理论对月亮错觉现象的解释(上)的论文.doc
- 基于最新视觉理论对月亮错觉现象的解释(下)的论文.doc
- 基于最新视觉理论对月亮错觉现象的解释(中)的论文.doc
- 基于有效思维训练的论文.doc
- 基于未确知测度模型的组织发展架构分析的论文.doc
- 基于本体的教学知识库系统分析的论文.doc
- 基于机器视觉的室内农药自动精确喷雾系统的论文.doc
- 湖北省荆州市沙市中学2025-2026学年高一上学期12月月考语文试题.docx
- 吉林省长春市第二实验中学2025-2026学年高二上学期11月期中考试数学含解析.docx
- 四川省字节精准教育联盟2026届高中毕业班第一次诊断性检测政治.docx
- 四川省字节精准教育联盟2026届高中毕业班第一次诊断性检测政治答案.docx
- 物理试卷(A卷)答案山西省三重教育2025-2026学年高二12月阶段性检测(12.17-12.18).docx
- 物理试卷(A卷)山西省三重教育2025-2026学年高二12月阶段性检测(12.17-12.18).docx
- Unit1Reading2课件牛津译林版七年级英语下册.pptx
- 物理试卷(A卷)答案浙江省2025学年第一学期浙江北斗星盟高二年级12月阶段性联考(12.18-12.19).docx
- 四川省字节精准教育联盟2026届高中毕业班第一次诊断性检测语文.docx
- Unit1MynamesGina第3课时考点讲解writing16张.pptx
最近下载
- Python编程:从入门到实践.docx VIP
- 庆元旦迎新年主题班会PPT课件.pptx VIP
- 贝叶斯网络应用实例一:胸部疾病诊所(ChestClinic).pdf VIP
- 2025年形象设计师(初级)职业技能鉴定参考试题库资料(含答案).pdf
- 中学语文教学中融入AI思维的策略论文.docx
- 股权激励与股权结构设计.ppt VIP
- 国家基层糖尿病防治管理指南(2025)解读.pptx
- 中医跟师心得体会10篇.docx VIP
- 无人机集群技术——智能组网与协同 课件 第8章 无人机集群任务分配.pptx
- 2025至2030中国飞行控制系统行业市场深度研究及发展前景投资可行性分析报告.docx VIP
原创力文档


文档评论(0)