基于向量空间模型的改进音频分类算法.pdfVIP

下载本文档

9
0
约7.6千字
约 4页
2017-09-12 发布于湖北
举报
版权申诉

基于向量空间模型的改进音频分类算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第36卷第 6期河南师范大学学报 (自然科学版) V0Z．36 N 0．6 20O8年 11月 J0埘nZo，H 鲫 NDrm口ZU rs (N口￡阳zSc ce) N0口．2OO8 文章编号：1OO0—2367(2OO8)06—0O3O～O4 基于向量空间模型的改进音频分类算法康健辉，吴渝，郑继明 (重庆邮电大学人工智能研究所，重庆 400O65) 摘要：提出一种基于向量空间模型(vsM)的音频分类算法．特征提取中，针对目前采用的参数主要为静态特征，提出了基于信息论的动态特征计算方法，并根据其物理意义设置关键帧提取中的初始值，解决聚类局部极值问题．通过引入音频聚类的类内标准差，对传统VSM未处理特征项间相关信息的缺点进行改进，提出新的相似性度量方法，并以此方法对不同类别的音频构造分类器．实验结果证明，此方法提高了分类精度，准确度可达 85 以上．关键词：向量空间模型；动态特征；音频分类；信息论中图分类号：TP391 文献标识码：A 随着多媒体和因特网技术的广泛应用，对有效进行音频数据检索的需求日益增长．音频分类是提取音频中结构化信息和语义内容的重要手段，是音频理解、分析与检索的基础．音频分类主要包括特征提取和分类两个基本方面．在特征提取方面，文献[1—3]提出了各种特征参数，如能量值、过零率、MFCC，LPC等，但这些计算方法得到的均为音频静态特征，忽略了帧与帧之间音频的信号变化．鉴于信息论中的互信息常用于衡量两个事件之间的信息流量，而音频信号随时间变化时，帧之间必然发生了信息变化，因而本文采用信息论计算动态特征．在分类方面，向量空间模型是信息分类中的经典方法，但是在相似度计算中，只考虑了权重向量的匹配信息，忽略了特征项之间的相关信息．对此虽然很多研究人员提出了不同的改进方法，如采用知网概念模型[4]、语义内积空间模型[5等度量词与词、词与文本之间的相似度，但这些方法只适用于文本关键词之间的相似度量．本文根据音频的数据特点，综合考虑关键帧匹配信息与权重向量计算音频相似度，提出新的相似度量方法．在权重计算时，传统 VsM采用 TFIDF公式即词频和反文档频率之积计算关键词的权重，而本文在帧频率的基础上引入了帧分布结构信息．在工作过程中采用了K—means对特征空间进行聚类，具有简单、快速的优点，但初始聚类中心的选取是随机的，容易使聚类划分产生偏离．为此，很多研究中提出了改进方法，如文献[6]提出基于密度和对象方向的改进算法，但这些方法或时间复杂度大，或实现复杂，不适用于大规模应用，实用价值较低．本文提出了新的质心选择方法． 1 音频特征提取 1．1 美尔倒谱系数 (MFCC) MFCC是在Me1标度频率域提取出来的倒谱参数，描述了人耳对频率感知的非线性特性．其计算步骤如图 1示． ① 对输入音频信号预加重、分帧加窗； H!：H鲞H H兰!： ② 对每一帧信号进行快速傅立叶变换图1MFCc计算过程 (FFT)，获得频谱分布信息； ③ 将频域信号通过按Mel频标分布排列的一组三角滤波器组，将线性频标变换为Mel频标；收稿日期：2OO8一O6—2O 基金项目：国家 973前期计划项目课题 (2OO8cB3l7¨1)；重庆市自然科学基金 (2O。8BB2241)；重庆市教委科学技术项目 (O5O5O9，O6O5O4) 作者简介：吴渝(197O一)，女，重庆人，重庆邮电大学教授，博士生导师，研究方向：计算智能、数据挖掘、多媒体技术．第 6期康健辉等：基于向量空间模型的改进音频分类算法 ④ 将各滤波器的输出取对数，作 DCT变换，得到MFCC系数．图2为某音频信号的波形图．图3为该音频的MFCC系数的3维图，从图中可看到由条折线组成的簇集 (为音频总的帧数)，代表了音频全体帧的MFCC系数