音乐哼唱检索系统中元数据特征的提取研究.pdfVIP

下载本文档

1
0
约1.12万字
约 6页
2018-01-05 发布于广东
举报
版权申诉

音乐哼唱检索系统中元数据特征的提取研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

音乐哼唱检索系统中元数据特征的提取胡楠许洁萍中国人民大学信息学院计算机系．北京，100872 摘要：本文对音乐信息定义了一种基于内容的二维元数据模型，它以音乐信号的音高、音长特征值为基础，并以音符作为查询的最小单位。文中集中讨论元数据曲提取以厦在元数据提取过程中需要解决的音符切分的问题。通过音符感知切分研究，提出了时域RMS及频域sF相结合的二级音符切分方法，实验结果表明了所提方法的有效性。美建词：元数据；时域RMS；频域sF 1．引言在多媒体和网络技术快速发展的今天，音乐已经成为越来越普遍的～种信息资源。而在与音乐相关的多媒体数据库中，对于音乐元数据的描述内容一般还只包括一些描述性的信息，如歌曲的名字、歌曲的词作者、曲作者、歌曲的演唱者等，描述信息比较单一、主观，数据库的管理通常都只能由人工完成，费时费力，很大程度上限制了音乐数据的查询和检索。更严重的问题是，音乐本身固有的一些特征向量与数据库中的音乐信息不能很好的匹配，(例如：音频采样与MIDI序列)，这对多媒体数据库的普及和应用带来很大麻烦。时下已经出现很多强有力的Web搜索引擎，但是音乐信息的搜索引擎还十分缺少。而且一直以来音频信号的处理还主要集中于语音识别、说话者识别中，对于音乐方面的研究还不是很多。基于此种现状，本文中提出了一种比较高级的音乐分析方法，对音乐信息定义了一种基于内容的元数据，它以音频信号的特征值为基础，并选择适当的维度，很大程度上改善了静态数据的局限性，而且很好的符合数据库的查询需求。 2．元数据的定义元数据可定义为描述数据的数据。有很多因素决定多媒体数据库的元数据，比如我们所建立的数据库包含的音乐内容、音乐类型；我们建立数据库的目的等。在输入格式方面也可以考虑几种形式，可以是数字的或者是模拟的；可以是静态的输入或者作为输入流来处理。对信号的初级分析之后可以考虑使数据库引擎进一步分析得出高级特征，但是多维的分析会降低系统性能，单维的分析又不能满足需求，所以对于所需要的特征要进行筛选。除了r述的动态特征，还需要定义一些静态特征信息，方便使用和查询。在定义元数据时，要综合考虑以上的各个分析。音乐是由一系列音符组成，而最能准确反映音乐内容特征的就是它本身的旋律。因此， xu@Z63．net 联系作者：讷洁薄，E—mml：jieplng 382 第一部分第十四届全国多媒体技术学术会议实验中我们采用了基频作为元数据的主要部分，将它作为音高来描述音乐的旋律信息，同时也增搬了音长描述音乐的节奏信息，构建了一个二维的元数据模型，描述为： Metadata=Deltaratio pitch，IOI ratio(Inter 其中Deltapitch(音高差)指后一个音符音高减去前一个音符音高的差值，IOI OnsetInterval ratio音长比)：指后一个音符音长与前一个音符音长的比值，很多实验…P1结果都表明，这一元数据的结构可以很好的表示音乐的旋律和节奏。 3．元数据特征的提取旋律特征中最重要的就是音高的变化，音高是由基频决定的。传统的基频提取方法包括时域自相关方法和频域倒谱法。实验中我们采取倒谱法提取基频14j。倒谱法是基于频域的处理方法，它是复倒谱的对称分量，具有与基频相同的周期。实 Hz，16bit／单声道的哼唱音频。考虑到人哼唱输验中，用户使用普通的麦克风录制11025 入的声音范围为80^-900Hz之间，所以将哼唱输入的音频信号通过一个截止频率为900Hz 的低通滤波器后，加hamrmng窗后用下式计算倒谱。图l给出了～段哼唱输入的音乐信号利用倒谱计算得到的基频曲线。实验中，考虑到第一个冲击往往出现在零点附近，所以一般把倒谱波形的第二个冲激认为是基音周期。实验证明用倒谱分析比用复倒谱的效果要好”J。它的优点是能够有效的消除呼吸噪音，而且实现算法比较简单。从图中可以看到，基频曲线与音符之间并不是一一对应的，只通过基频的提取来进行元数据的描述还存在一