音频分类和音频分段的研究.pdfVIP

下载本文档

7
0
约4.23千字
约 4页
2017-08-16 发布于安徽
举报
版权申诉

音频分类和音频分段的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

音频分类与音频分段的研究蒋丹宁蔡莲红清华大学计算机系人机交互与媒体集成研究所 ■耍：随着计算机速度、容量的提高，以及至联网上音频教据的惠尉膨胀，发纛音频信惠的基于内容检索技术已经成为迫-切的需要．音频信息的基于内容检索系统包括音基信息数括库与音频信惠的主询．浏览系统两个部分。在建立青频信息数据库时，首先要对原始的音囊蠹据进行处理，将它们分类，再用一定的方法建立索引；在检索的甘候，也首先要确定需要捡索的青囊的类别．可见，音频信息的分类是建立基于内容检索系统的基础．对于较箍的．只包含某一类音蜊宝息的音频文件来说，只需直接进行分类即可；而对于较长的、包括若干不同类别的音颤段落的音频文件来说，刖还要将它们按照类别的不同进行纠殳．苯定时音囊的分类和分段问题徽了初步的研究，并建立了一个新闻广播的音频分类与分段系统． 1 引言随着计算机速度和存储容量的增加以及计算机网络的飞速发展，音频数据越来越多她出现在计算机和互联网上。然而，目前对于音囊数据的存储还仅仅是以字节流的方式，再加上一些基本的属性。如名字、采样率、每个采样点所占的比特数、长度等等来进行的。这种方式对于音频文件的内容来说是不透明的。对于需要访问音频数据库的管理者和使用者来说，检索音额数据中的有用信息是一件困难的事情。传统的基于关键字的检索方法往往满足不了实际的需要，因为模糊的、具有很强主观色彩的音频数据不能够由美链字来完美地代表。为了蕾够快捷、准确、方便地在音频数据中查找到有用的信息，就需要音频的基于内容的检索技术。为了实现音频信息的基于内容检索，我们首先要对音频信息进行分类。对于那些比较短的音频文件来说，由于在文件中音频的类别始终保持一致，可以利用音频文件整体上的信息来提取特征，进行分类。但是，对于很多长的音曩文件，它们包含很多不陲墼蹦的段落，这时间曩就不都么简单了。我们必须将原始的音频文件划分为若干段落，同时确定每 —段的类掰。分类与分爱是相辅相成的。由于不能利用整体信息，我们必须从局部分析出发，来找到音频类别发生变化的地方。分类可以在分段之前，这时苜先要进行音囊的短时分析．确定每一帧的类别，得到—个类别序列，并在此基础上进行分段；分类也可以在分器之后，这时要首先找到音频信息的特征发生急剧变化的地方，并把它们作为殷落的边界，然后在《，‘{●：‘_；●I；々{I‘ 雌础上判断每—殷中数据的类剐。目前国内对于基于内容检索技术的研究剐剐起步，音频分类也只局限于短的音频文件内。为了打破这个局限，本文研究了长的音频文件的分类与分段，并以“新闻联播”的音 ·142· 频数据为实验数据，建立了一个音频分类与分段的实验系统。在这个实验系统中，音频共授分成了四类：女声、男声、音乐背景下的语音以及音乐一 2音频信息的分类与分段 2．1基本方法在本实验系统中，我们采用了先分类，后分段的方法。首先，以20ms的长度为一帧．分别确定每一帧所在的类别，得到一个帧类别序列，在此基础之上，相同类别的帧就可以合并为一个段落。当然，在实际中，会有一些分类错误的}磺与段落，这样，我们还需要加人平滑过程，去掉这些夹杂在正确结果中的错误分类。可见，这种方法的关键在于尽量准确地得刭每一帧音频效据的类别。为了达辩这个目舶，我钉采用了统计模式识别里面的贝叶斯分类方法来判别每一帧的类别。采用这种方法的基础在于，每一类音频数据的特征在空间里分布都是不同的。我们只要分别统计出它们的概率模型，就可以得到需要分类的帧对于各个类别的后验概率。选择后验撬率量大的类作为该帧数据的类另明胪口。注意：概率模型不但包括每类数据的类分布概率密度函数，还应包括它们的先验概率。作为分类标准的概率也不是先验概率或者类分布概率密度，而是先验概率与类分布概率密度的乘积——它与后验概率成正比。 212特征的选择在本实验中所采用的音频特征为，Ⅻ町cs+^播CCs的一阶差分。删一cC的全称是Md 频率倒谱系数．它是进行音频分类的重要特征。与一般倒谱不同的是，hⅡ’ocs是原始频谱经过一系列在Mel刻度上宽度相等的带通滤波器后，再变换到倒谱域上的倒谱。因此， MFa盈更符台人的听觉特性，更能够更好地反映出不同类别的音频在人的听感中的差别。利用K．L变换。将上述特征降成2维，并在平面上表