- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
音频分类与音频分段的研究
蒋丹宁蔡莲红
清华大学计算机系人机交互与媒体集成研究所
■耍:随着计算机速度、容量的提高,以及至联网上音频教据的惠尉膨胀,发纛音频信惠
的基于内容检索技术已经成为迫-切的需要.音频信息的基于内容检索系统包括音基信息数
括库与音频信惠的主询.浏览系统两个部分。在建立青频信息数据库时,首先要对原始的
音囊蠹据进行处理,将它们分类,再用一定的方法建立索引;在检索的甘候,也首先要确
定需要捡索的青囊的类别.可见,音频信息的分类是建立基于内容检索系统的基础.对于
较箍的.只包含某一类音蜊宝息的音频文件来说,只需直接进行分类即可;而对于较长的、
包括若干不同类别的音颤段落的音频文件来说,刖还要将它们按照类别的不同进行纠殳.
苯定时音囊的分类和分段问题徽了初步的研究,并建立了一个新闻广播的音频分类与分段
系统.
1 引言
随着计算机速度和存储容量的增加以及计算机网络的飞速发展,音频数据越来越多她
出现在计算机和互联网上。然而,目前对于音囊数据的存储还仅仅是以字节流的方式,再
加上一些基本的属性。如名字、采样率、每个采样点所占的比特数、长度等等来进行的。
这种方式对于音频文件的内容来说是不透明的。对于需要访问音频数据库的管理者和使用
者来说,检索音额数据中的有用信息是一件困难的事情。传统的基于关键字的检索方法往
往满足不了实际的需要,因为模糊的、具有很强主观色彩的音频数据不能够由美链字来完
美地代表。为了蕾够快捷、准确、方便地在音频数据中查找到有用的信息,就需要音频的
基于内容的检索技术。
为了实现音频信息的基于内容检索,我们首先要对音频信息进行分类。对于那些比较
短的音频文件来说,由于在文件中音频的类别始终保持一致,可以利用音频文件整体上的
信息来提取特征,进行分类。但是,对于很多长的音曩文件,它们包含很多不陲墼蹦的段
落,这时间曩就不都么简单了。我们必须将原始的音频文件划分为若干段落,同时确定每
—段的类掰。
分类与分爱是相辅相成的。由于不能利用整体信息,我们必须从局部分析出发,来找
到音频类别发生变化的地方。分类可以在分段之前,这时苜先要进行音囊的短时分析.确
定每一帧的类别,得到—个类别序列,并在此基础上进行分段;分类也可以在分器之后,
这时要首先找到音频信息的特征发生急剧变化的地方,并把它们作为殷落的边界,然后在 《,‘{●:‘_;●I;々{I‘
雌础上判断每—殷中数据的类剐。
目前国内对于基于内容检索技术的研究剐剐起步,音频分类也只局限于短的音频文件
内。为了打破这个局限,本文研究了长的音频文件的分类与分段,并以“新闻联播”的音
·142·
频数据为实验数据,建立了一个音频分类与分段的实验系统。在这个实验系统中,音频共
授分成了四类:女声、男声、音乐背景下的语音以及音乐一
2音频信息的分类与分段
2.1基本方法
在本实验系统中,我们采用了先分类,后分段的方法。首先,以20ms的长度为一帧.
分别确定每一帧所在的类别,得到一个帧类别序列,在此基础之上,相同类别的帧就可以
合并为一个段落。当然,在实际中,会有一些分类错误的}磺与段落,这样,我们还需要加
人平滑过程,去掉这些夹杂在正确结果中的错误分类。可见,这种方法的关键在于尽量准
确地得刭每一帧音频效据的类别。
为了达辩这个目舶,我钉采用了统计模式识别里面的贝叶斯分类方法来判别每一帧的
类别。采用这种方法的基础在于,每一类音频数据的特征在空间里分布都是不同的。我们
只要分别统计出它们的概率模型,就可以得到需要分类的帧对于各个类别的后验概率。选
择后验撬率量大的类作为该帧数据的类另明胪口。
注意:概率模型不但包括每类数据的类分布概率密度函数,还应包括它们的先验概率。
作为分类标准的概率也不是先验概率或者类分布概率密度,而是先验概率与类分布概率密
度的乘积——它与后验概率成正比。
212特征的选择
在本实验中所采用的音频特征为,Ⅻ町cs+^播CCs的一阶差分。删一cC的全称是Md
频率倒谱系数.它是进行音频分类的重要特征。与一般倒谱不同的是,hⅡ’ocs是原始频谱
经过一系列在Mel刻度上宽度相等的带通滤波器后,再变换到倒谱域上的倒谱。因此,
MFa盈更符台人的听觉特性,更能够更好地反映出不同类别的音频在人的听感中的差别。
利用K.L变换。将上述特征降成2维,并在平面上表
您可能关注的文档
最近下载
- 切向流过滤原理.ppt VIP
- 孤独症康复教育人员上岗培训课程考试题库【附答案】.docx VIP
- 教科版(2024)新教材小学二年级科学上册第二单元《3.我们周围的空气》精品课件.pptx
- 孤独症康复教育人员上岗培训课程考试题库【附答案】.docx VIP
- 极值点偏移1-2---极值点偏移定理.doc VIP
- XFUSION超聚变 服务器 (V5及以下) iBMC Redfish 接口说明.pdf VIP
- 景德镇社区工作者考试真题库(2024版).docx VIP
- 海外工程重油发电机组安装施工组织设计(中英文版).doc VIP
- 2025年中考历史复习专项训练:中国古代史选择题100题(原卷版).pdf VIP
- 蓝凌数字化办公OA平台解决方案EKP使用指南.docx VIP
文档评论(0)