- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
加性噪声影响下文本无意识说话人识别的谱减与缺失特征重建
带噪语音特征重建
现在,语言识别系统可以达到与训练环境和测试环境相对应的良好识别率。然而,在实践中,环境噪声的影响导致训练和测试环境失去配置,识别能力下降。因此说话人识别系统需要一些环境适应的方法来提高性能, 如语音增强算法 (谱减, 维纳滤波等)、模型补偿 (PMC)和特征补偿等。
近年来研究表明缺失特征法能有效提高语音识别系统的噪声鲁棒性。该方法认为噪声对语音各频段的影响不同, 因此带噪语音各频段的信噪比也各不相同。将信噪比高的部分的特征称为可靠特征;而信噪比低的部分称为缺失特征。在用干净语音训练模型的前提下, 缺失特征对识别起负作用。因此如何处理缺失特征是关键问题。目前主要有两种方法: (1) 丢弃缺失特征, 只用可靠特征的输出评分进行判决; (2) 重建缺失特征, 得到完整的特征向量后进行识别。
缺失特征重建方法的基本思路是语音信号各频带之间存在着相关性, 利用这种相关性由可靠特征估计缺失特征。基于聚类的缺失特征重建方法, 利用全协方差矩阵的高斯模型描述聚类中的各个特征子带的相关性, 得到缺失特征的MAP估计, 并且保留可靠特征。该方法是在参数级上增强特征, 并不需要改变识别模型, 可以转换为对识别性能更好的倒谱参数, 因此在语音识别领域有很好的应用。
本文研究证明, 基于聚类的缺失特征重建方法同样能有效提高说话人识别系统的噪声鲁棒性, 但该方法在完整的重建语音特征的同时, 也带来了重建误差, 阻碍了话者识别系统性能的进一步提高。在此基础上, 本文进一步提出了谱减法和缺失特征重建相结合的方法, 采用谱减法增强可靠特征, 并用增强后的可靠特征判断聚类, 重建缺失特征。另外本文提出缺失帧丢弃法, 应用于谱减和缺失特征重建结合的系统中, 通过实验验证了本文方法的先进性。
1 子带可靠性分析
本文缺失特征重建处理的对象是Mel子带特征向量, 即在Mel频率域均匀分布的20个三角滤波器组输出, Mel子带特征向量每一维分量都代表了语音信号在对应Mel子带内的能量。因此缺失特征检测和缺失特征重建都在Mel子带特征向量空间中进行。由于带噪语音在不同帧的不同子带上的能量分布各不相同, 因此需要逐帧判断各个子带的可靠性, 判断依据为信噪比准则。当局部信噪比小于一定阈值时, 该子带标记为缺失特征;反之为可靠特征。缺失特征重建法保留可靠特征, 并重建缺失特征, 其中局部信噪比已知时重建为理想重建。
1.1 理想缺失特征检测与噪声重建
缺失特征检测的目的是判断可靠特征与缺失特征。定义二维矩阵Mask来描述缺失特征检测的结果, 如式 (1) 所示。
Μask(m,l)={1SΝR(m,l)δ0其他(1)
式中:SNR (m,l) 为第m帧第l个Mel子带的信噪比;δ为判断该子带是否可靠的阈值。当SNR大于阈值时, Mask为1, 表示该子带为可靠特征, 反之为缺失特征。因此缺失特征检测需要求各个子带的信噪比, 并选取合适的阈值。δ取值为-5~5 dB, 本文由实验得到具体的阈值。
如果已知干净语音能量和噪声能量, 就可以精确地得到各个子带的信噪比, 从而判断可靠特征和缺失特征, 称为理想缺失特征检测, 经理想缺失特征检测后重建称为理想重建。本文实验中保留了干净语音和噪声, 因此可以实现理想重建。理想重建结果用来判断阈值和评价缺失特征重建方法的性能。
实际应用中只有带噪语音, 为了求各个子带的信噪比, 首先估计噪声谱。利用非语音帧信号的功率谱估计噪声谱~Ν(m,l), 并通过Mel滤波器组, 得到噪声的Mel子带能量。
估计每个子带的信噪比为
S~ΝR(m,l)=10*log10(Y(m,l)-~Ν(m,l)~Ν(m,l))(2)
式中Y(m,l) 和~Ν(m,l)分别为带噪语音和噪声第m帧第l个子带的能量。
1.2 基于聚类的缺失特征重建
缺失特征检测将语音信号特征向量分成可靠特征和缺失特征, 由于语音信号每帧的各个子带之间存在着相关性, 因此可以利用特征子带之间的相关性, 由可靠特征估计出缺失特征。本文采用基于聚类的缺失特征重建方法的基本思想是:所有特征向量可以分为若干个聚类, 每个特征向量都属于其中的某一类, 每一类都使用高斯模型来描述其向量分布, 则高斯模型的参数便蕴涵了该类向量各子带间的相关性的信息。依据高斯模型的统计信息和可靠特征子带, 就可以得到缺失特征的最大后验概率估计。
为了描述各个聚类的分布, 利用干净语音的Mel子带特征向量训练聚类。首先使用K-means聚类算法将训练集向量分为N个类, 将每个聚类近似对应一个单高斯模型, 则第i个聚类的向量分布为
Ρ(y|i)=exp{-12(y-μi)Τθ-1i(y-μi)}√(2π)d|θi|121≤i≤Ν(3)
式中:y为第i
您可能关注的文档
最近下载
- 2022年宜春职业技术学院招聘笔试真题含答案详解.docx VIP
- 印花税法解读课件PPT.pptx VIP
- 信息安全培训课件银行.ppt VIP
- 2025年高速公路收费员考试题(附答案+解析).docx VIP
- 抗高血压药物的分类应用抗高血压药物的分类及应用.doc VIP
- 2024年宜春职业技术学院招聘笔试真题含答案详解.docx VIP
- 光伏发电能源项目.docx VIP
- 重症肌无力护理业务学习.pptx VIP
- Razer雷蛇雷蛇幻影战狼 V3 竞技版 8K PC专用 RZ06- 05550 支持和常见问题解答 用户指南 (简体中文)说明书用户手册.pdf
- 塑料件结构的设计规范.ppt VIP
原创力文档


文档评论(0)