基于音频分割的场景分类研究-电子与通信工程专业论文.docxVIP

下载本文档

4
0
约6.13万字
约 70页
2019-03-30 发布于上海
举报
版权申诉

基于音频分割的场景分类研究-电子与通信工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万方数据万方数据分类号： U D C ：密级：编号：专业硕士学位论文（工程硕士）基于音频分割的场景分类研究硕士研究生：孙立仁指导教师：张磊教授学位级别：工程硕士工程领域：电子与通信工程所在单位：信息与通信工程学院论文提交日期：2014 年 5 月 30 日论文答辩日期：2014 年 6 月 10 日学位授予单位：哈尔滨工程大学 Classified Index: U.D.C: A Dissertation for the Professional Degree of Master （Master of Engineering） Research on Audio Scene Classification Based on Audio Segmentation Candidate: Sun Liren Supervisor: Professor Zhang Lei Academic Degree Applied for: Master of Engineering Specialty: Electronics and Communications Engineering Date of Submission: May 30, 2014 Date of Oral Examination: June 10, 2014 University: Harbin Engineering University 哈尔滨工程大学学位论文原创性声明本人郑重声明：本论文的所有工作，是在导师的指导下，由作者本人独立完成的。有关观点、方法、数据和文献的引用已在文中指出，并与参考文献相对应。除文中已注明引用的内容外，本论文不包含任何其他个人或集体已经公开发表的作品成果。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者（签字）：日期：年月日哈尔滨工程大学学位论文授权使用声明本人完全了解学校保护知识产权的有关规定，即研究生在校攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨工程大学有权保留并向国家有关部门或机构送交论文的复印件。本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据库进行检索，可采用影印、缩印或扫描等复制手段保存和汇编本学位论文，可以公布论文的全部内容。同时本人保证毕业后结合学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈尔滨工程大学。涉密学位论文待解密后适用本声明。本论文（□在授予学位后即可 □在授予学位 12 个月后 □解密后）由哈尔滨工程大学送交有关部门进行保存、汇编等。作者（签字）：导师（签字）：日期：年月日年月日基于音频分割的场景分类研究摘要随着多媒体产业的迅速发展、音频信号处理技术研究的深入、音频分割和分类技术在现实生活中音频检索、视频分析和语音识别方面的广泛应用，音频信号的分割和分类技术越来越得到人们在日常生活中的普遍关注。音频信号的场景分割和分类技术是音频信号处理中一项重要的内容。音频信号的分割技术就是在一段音频文件中找到不同段落的起始点、终点的位置，音频的场景分类技术就是在分割技术找到段落起始点和终点的基础上，根据不同的段落特征进行场景的识别。这两项技术是语音识别中前端处理中的最关键的技术，其性能的优劣程度必然直接影响到语音识别系统的正确率。本文首先介绍了音频分割和分类技术研究背景及现状，之后针对所采用的语料库，明确了音频信息中主要的音频类型，把音频分成纯语音、噪声、音乐、在背景音乐下的语音、静音和在噪声下的语音，共六种。之后分别介绍近几年国内外学者提出的一些音频分割算法，如固定窗长度的分割熵算法和基于贝叶斯信息准则(BIC)的音频分割算法，并进行仿真实验说明结果，比较这两种算法在不同情况下的优点和缺点。之后本文针对音频场景分割跳变点检测提出针对 BIC 算法的改进和实现，在低噪声条件下，能够很好的保证系统的准确率和鲁棒性，并减少了检测时间，实现了音频场景跳变点检测系统的高效性。由于支持向量机(SVM)能够成功的向高维空间非线性映射，本文采用支持向量机(SVM)作为分类器，运用 K-means 聚类算法生成字典，将每一段音频场景向生成的字典投影，从而得到每一类音频的新特征作为训练数据，根据对比出来的实验结果，说明生成的新特征与 SVM 分类器相结合的音频场景分类方法对于基线系统的分类方法优化了准确率。之后本文又在提取新特征上面提出了金字塔方法，进一步优化了分类系统的准确率。文章最后对分割熵和 BIC 两种音频分