音频分类和音频分段的研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
音频分类与音频分段的研究 蒋丹宁蔡莲红 清华大学计算机系人机交互与媒体集成研究所 ■耍:随着计算机速度、容量的提高,以及至联网上音频教据的惠尉膨胀,发纛音频信惠 的基于内容检索技术已经成为迫-切的需要.音频信息的基于内容检索系统包括音基信息数 括库与音频信惠的主询.浏览系统两个部分。在建立青频信息数据库时,首先要对原始的 音囊蠹据进行处理,将它们分类,再用一定的方法建立索引;在检索的甘候,也首先要确 定需要捡索的青囊的类别.可见,音频信息的分类是建立基于内容检索系统的基础.对于 较箍的.只包含某一类音蜊宝息的音频文件来说,只需直接进行分类即可;而对于较长的、 包括若干不同类别的音颤段落的音频文件来说,刖还要将它们按照类别的不同进行纠殳. 苯定时音囊的分类和分段问题徽了初步的研究,并建立了一个新闻广播的音频分类与分段 系统. 1 引言 随着计算机速度和存储容量的增加以及计算机网络的飞速发展,音频数据越来越多她 出现在计算机和互联网上。然而,目前对于音囊数据的存储还仅仅是以字节流的方式,再 加上一些基本的属性。如名字、采样率、每个采样点所占的比特数、长度等等来进行的。 这种方式对于音频文件的内容来说是不透明的。对于需要访问音频数据库的管理者和使用 者来说,检索音额数据中的有用信息是一件困难的事情。传统的基于关键字的检索方法往 往满足不了实际的需要,因为模糊的、具有很强主观色彩的音频数据不能够由美链字来完 美地代表。为了蕾够快捷、准确、方便地在音频数据中查找到有用的信息,就需要音频的 基于内容的检索技术。 为了实现音频信息的基于内容检索,我们首先要对音频信息进行分类。对于那些比较 短的音频文件来说,由于在文件中音频的类别始终保持一致,可以利用音频文件整体上的 信息来提取特征,进行分类。但是,对于很多长的音曩文件,它们包含很多不陲墼蹦的段 落,这时间曩就不都么简单了。我们必须将原始的音频文件划分为若干段落,同时确定每 —段的类掰。 分类与分爱是相辅相成的。由于不能利用整体信息,我们必须从局部分析出发,来找 到音频类别发生变化的地方。分类可以在分段之前,这时苜先要进行音囊的短时分析.确 定每一帧的类别,得到—个类别序列,并在此基础上进行分段;分类也可以在分器之后, 这时要首先找到音频信息的特征发生急剧变化的地方,并把它们作为殷落的边界,然后在 《,‘{●:‘_;●I;々{I‘ 雌础上判断每—殷中数据的类剐。 目前国内对于基于内容检索技术的研究剐剐起步,音频分类也只局限于短的音频文件 内。为了打破这个局限,本文研究了长的音频文件的分类与分段,并以“新闻联播”的音 ·142· 频数据为实验数据,建立了一个音频分类与分段的实验系统。在这个实验系统中,音频共 授分成了四类:女声、男声、音乐背景下的语音以及音乐一 2音频信息的分类与分段 2.1基本方法 在本实验系统中,我们采用了先分类,后分段的方法。首先,以20ms的长度为一帧. 分别确定每一帧所在的类别,得到一个帧类别序列,在此基础之上,相同类别的帧就可以 合并为一个段落。当然,在实际中,会有一些分类错误的}磺与段落,这样,我们还需要加 人平滑过程,去掉这些夹杂在正确结果中的错误分类。可见,这种方法的关键在于尽量准 确地得刭每一帧音频效据的类别。 为了达辩这个目舶,我钉采用了统计模式识别里面的贝叶斯分类方法来判别每一帧的 类别。采用这种方法的基础在于,每一类音频数据的特征在空间里分布都是不同的。我们 只要分别统计出它们的概率模型,就可以得到需要分类的帧对于各个类别的后验概率。选 择后验撬率量大的类作为该帧数据的类另明胪口。 注意:概率模型不但包括每类数据的类分布概率密度函数,还应包括它们的先验概率。 作为分类标准的概率也不是先验概率或者类分布概率密度,而是先验概率与类分布概率密 度的乘积——它与后验概率成正比。 212特征的选择 在本实验中所采用的音频特征为,Ⅻ町cs+^播CCs的一阶差分。删一cC的全称是Md 频率倒谱系数.它是进行音频分类的重要特征。与一般倒谱不同的是,hⅡ’ocs是原始频谱 经过一系列在Mel刻度上宽度相等的带通滤波器后,再变换到倒谱域上的倒谱。因此, MFa盈更符台人的听觉特性,更能够更好地反映出不同类别的音频在人的听感中的差别。 利用K.L变换。将上述特征降成2维,并在平面上表

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档