环境声音识别方法的比较.docVIP

下载本文档

23
0
约1.02万字
约 15页
2017-12-04 发布于江西
举报
版权申诉

环境声音识别方法的比较.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

环境声音识别方法的比较

环境声音识别方法的比较摘要：本论文结合环境声音的平稳/非平稳特征提取，对人工神经网络，学习向量量化和动态时间规划分类的方法进行综合比较研究。结果显示，应用梅尔频谱倒谱系数或动态时间规划连续小波变换方法，识别正确率可达70%。关键字：非语音识别；环境声音识别；音频信号处理；声信号处理；联合视频特征提取引言本论文对语音识别与乐器识别的典型方法进行综合研究比较，并探讨这些方法的环境声信号识别中的适应性。结果表明，在传统的语音识别与乐器声识别中得到很好应用的技术，在环境声信号的识别中并不适合。而在环境声信号识别领域，公开发表的研究并不多。本实验中，动态时间规划的非平稳连续小波变换显示出最好的效果。在之前的工作中，本作者（Cowing和Sitte，2000，2001，2002a，b）对环境声信号识别中的平稳特征提取技术进行研究。虽然比较实验的结果很明显，但由于大多数环境声信号的固有非平稳特性，平稳特征提取技术在其中的应用不是很理想。然而，Orr et al.（2001）在语音识别中的新研究成果表明，非平稳（即时域）技术可用于声音研究且效果不错。因为，我们对该方法在环境声信号中的适应性进行试验。本文分析讨论了固定频率和非固定技术的特征提取技术在环境声音分类中的应用，并与一些常用的分类技术进行比较（语音识别与乐器识别中的传统技术）。本文为声信号处理领域，尤其是计算声音场景分析方面做出一定的贡献。环境声音识别系统的发展，又有助于声音理解智能机器的发展。其中，该技术最新的应用便是作为安全系统中的一个核心元素。在监视系统中，由于在声音监视中，不存在检测视线上的问题，一定程度上来说，这比只有视频的监视系统有优势。另外，声音系统可以与视频系统相结合，如用声强来触发摄像头采集数据。以下文章分为四部分，第二部分（即接下来的第一部分）讨论特征提取技术和分类技术的选择，尤其突出了可用于非语音识别的方法。第三部分阐述了这些技术的具体实施。第四部分对实验结果进行比较，估计了各种方法在监视系统中的适应性。最后，第五部分对全文进行总结，并展望了环境声音识别领域的未来研究发展情况。声信号分析方法选择此部分分析了一系列方法对环境声音识别的适应性。声音识别（包括语音与非语音）包括特征提取与分类（运用人工智能技术）。特征提取指从声音中获取一系列该声音的特征特性，如高音调或低音调。分类则是对声音的识别，通过对已有声音样本进行特征训练，再将测试的声音与其比较。特征提取可被分为两大类：固定（频域）特征提取与非固定（时域）特征提取。固定特征提取包含了整个信号中详细的总体频率信息，而无法判别该频率发生在信号何处发生。相反地，非固定特征提取将信号在时域上分成各个小单元，可辨别各频率信号具体的位置，更有利于对信号的直接理解。 2.1．特征提取（固定）对于固定的特征提取而言，语音和乐器识别仅有几种不同类型的特征提取方法（每种方法有若干不同的差异）。首先，我们考虑8种流行的方法（其中有两种方法在乐器识别中广泛应用，而所有方法均可用于语音识别）作为非语音特征提取的备选方法。各方法如以下所列： ·频谱提取（乐器与语音） ·同态倒谱系数 ·梅尔频率倒谱系数（乐器与语音） ·线性预测倒谱（以下简写为LPC）系数 ·梅尔频率LPC系数 ·巴尔克频率倒谱系数 ·巴尔克频率LPC系数 ·感知线性预测（PLP）特征需要指出的是，频谱提取的方法为固定技术，而其他运用倒谱系数的方法，由于将信号分成时间片，可被称为“伪平稳”技术。而每个时间片又将与其他时间片相结合，产生相关信息，因此这些方法不是真正的时域提取技术。基于LPC系数的方法以模拟人类声道的声码器为基础。而人的声道不能发出环境中的一些声音，所以这些方法不能突出声音中典型的唯一特征，因此不适合于非语音识别。根据Lilly（2000），梅尔频率滤波器和巴尔克频率滤波器的性质相似，因此两者的滤波效果相近。Gold et al.（2000）也提到，PLP和梅尔频率的两种方法技术相类似。基于以上的了解，我们选择较为流行的梅尔频率方法进行试验。 2.2．特征提取（非固定）已知大多数文献中，主要的时频方法有： ·短时傅立叶变换（STFT） ·快速（离散）小波变换（FWT） ·连续小波变换（CWT） ·Wingner—Ville分布（WVD）所有这些方法用不同的算法来产生一个信号的时域表示。例如，STFT在加若干个窗口的基础上，运用标准傅立叶变换；而基于小波技术的方法将母波应用于波的变换中，避免了STFT中存在的固有问题所带来的影响；WVD是一种双线性时域分布，并用一些先进的技术来解决难点。相比STFT，WVD有更好的解决方案，但产生一一些交叉干扰，且结果的粒度比小波技术粗糙。对于两种小波技术，FWT常用于信号的编码解码，而