音频检索的关键技术与挑战.docVIP

下载本文档

6
0
约5.41千字
约 7页
2016-11-25 发布于重庆
举报
版权申诉

音频检索的关键技术与挑战.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

音频检索的关键技术与挑战

音频检索的关键技术与挑战耳朵是我们每个人最为重要的身体器官之一，那么声音则是我们用来感知世界，认识世界的最重要的工具之一。如果没有声音，那么我们的生活将会黯然失色，毫无光彩，失去很多精彩的瞬间。我们都知道聋哑人刚刚开始的时候只是失去听力，感知不到声音，他们的说话能力并没有问题。但是在一天天的成长过程中，由于听不到声音，他们也就无法学习用语言交流，慢慢的慢慢的他们也就不会说话了，没有了语言能力。所以，从这个例子中，我们知道了声音对我们有多么的重要。科学家们也意识到了声音的重要性，逐渐地把音频做为了一种重要的研究对象。音频做为一种意义非凡的媒体，包含了非常丰富的听觉特征，可分为3类：语音（具有字词，语法等语素）；音乐（具有节奏，旋律和声音等要素）；波形声音（对模拟声音数字化而得到的数字音频信号）。而音频内容又可以分为3个级别：底层（物理样本级）；中层（声学特征级）；高层（语义级）。音频检索是以波形声音为对象的检索，也是多媒体检索技术中的一个重要组成部分。我们都知道音频信息做为一种不透明的位流，虽然有外部属性，但是缺少关键词可以用来进行匹配的实体，可以通过方法将音频转化为文字进行检索。但是，缺点是:数据量越来越大，人工注释的工作量越来越大；人对音频的感知不准确；不能支持实时音频数据流检索。为了解决这些问题，音频检索应运而生。今天我们要根据当前的音频检索各种技术发展，来好好地讨论现阶段一些音频检索技术研究中的关键技术：音频特征提取，音频分类，语音识别技术，特征相似度匹配等。音频信息检索技术有着广泛的应用前景:（l）它是智能语音系统的核心技术，用户可通过该技术方便快捷地获取所需的信息;(2)它可以实现对网络中的媒体，例如网上电视，音视频等的音频信息进行实时检索、审查和有效监控，对各种数字音频产品的版权保护，如音乐的版权保护，即搜索未经授权的使用等;(3)它在音频信息分类与统计技术的研究中也扮演着重要的角色，如在广播电视新闻节目、数字图书馆等内容中包含着大量的语音、音乐等信息，使用音频信息检索技术可以有效地对这些信息进行分类、统计与检索，更好地管理、存储与高效利用这些资源。此外，它还可应用于网络管理、信息安全以及军事刑侦等诸多领域。早期的检索主要是采用文本检索技术，但是这种检索方式非常局限性。它是通过人工方式输入音频的属性和描述（例如文件名、文件格式等文本信息）来进行检索，但其局限性非常明显：首先，互联网信息庞杂，充斥着许多未标注、错误标注文件名等文本信息的音频数据，而如要正确标注互联网所有音频数据显然非人力所及；其次，许多现实的应用需要使用音频数据本身的感知内容，而这种感知内容通过简单的文件名等文本标注无法体现，如音乐的旋律、音调、音质等。再次，即便针对于语音信息，比如新闻记录、谈话记录等，通过文本检索技术也仅仅是检索其文件标注，而不能检索其内容。由于它的种种局限性，所以产生了一种新的检索方式，即基于内容的音频检索。基于内容的音频信息检索技术是继基于内容的图像检索之后发展起来的一个新兴研究方向，是指通过音频特征分析，对不同音频数据赋以不同的语义，使具有相同语义的音频在听觉上保持相似，其中基于内容的音乐检索是具有较高实用价值的一个部分。它研究如何利用音频的幅度、频谱等物理特征，响度、音高、音色等听觉特征，词字、旋律等语义特征实现基于内容的音频信息检索。基于内容的音频检索，该方法是从媒体数据总体取出特定的信息线索，建立音频数据表示方法和数据模型，采用有效和可靠的查询处理算法，使得用户可以在智能化的查询接口的辅助下，从大量存储数据库中的媒体进行查找，检索出与接收的音频信号具有相似特征的媒体数据出来。它实际上是一种相似查询，是检索出与用户指定的要求非常相似的所有声音。音频检索中的关键技术我们首先理解两个概念：（1）音频内容描述是整个基于内容的音频检索技术的核心技术。这里分语音内容和乐音内容两部分。音频内容描述是在音频内容获取的基础之上进行的，同时是进一步进行音频特征相似度匹配的必要前提。音频内容描述在本文中主要是指旋律包络曲线，这是因为一般来说，人在哼唱歌曲时，他人判断其哼唱的歌曲名字时是根据所哼唱的歌曲的旋律信息，而旋律信息，以旋律包络曲线表示，主要包含两个重要的参数序列，一是音调变化信息，二是节奏信息。这两种音频描述跟音调持续时间长短及音调间的高低变化有关。（2）音频的相似度匹配是基于内容的音频检索技术的关键环节，匹配算法的性能直接影响着检索结果和整个系统性能。相似度匹配包括精确匹配、模糊匹配、相似度计算、相关度计算等，其性能各不相同适用范围也不同，通常根据实际需要对其进行组合使用。而音频检索技术中最关键的主要是音频内容识别、获取与分类、音频特征提取（音频