基于人工神经网络的音乐和弦实时感知.pdf

基于人工神经网络的音乐和弦实时感知.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于人工神经网络的音乐和弦实时感知1 摘 要:和弦的识别是音乐调式分析以及自动标注的基础,也对于音乐结构分析及旋律分析 等任务有重要的作用,也因此成为音乐信息检索(MIR)领域的热点之一。本文根据音乐认知 心理学原理,提出一种基于人工神经网络(ANN)的和弦实时感知方法:首先,我们利用常数 Q 变换(CQT)对音乐信号进行时频变换,并在所得到的 CQT 谱上进行音符起始点检测以及 音高校准,之后定义了一种全新的音级分布矩阵(PCDM)特征,最后利用 ANN 作为人脑认 知过程的模拟并通过半监督学习方法对和弦进行感知。在多种风格音乐上进行的初步实验表 明,所提出的方法以可以接受的计算时间消耗取得相当不错的识别率,是一种很具潜力的方 法。果证明了方法的有效性。 关键词:和弦感知;常数 Q 变换;音级分布矩阵;半监督学习;人工神经网络;音乐信息 检索 中图分类号:TP 391.4 1.引言 音乐作为我们生活中不可或缺的一部分,在当今蓬勃发展的网络资源里占有相当的比 例。对网络音乐的管理与利用也面临查找、检索以及内容组织等相关技术缺失的问题[1] 。因 此,音乐信息检索(MIR)作为多一个学科交叉的新热点吸引了来自音乐认知心理学、音乐理 论学、电子工程学以及计算科学的众多专家的注意力。而作为MIR 的研究趋势,基于内容 的音乐信息检索瞄准了智能的、自动的对目标音乐进行处理,来完成对音乐具体的乐谱及个 方面属性的标注的目标。 作为几个世纪以来统治主流音乐界的西方十二平均律音乐体系的基本元素之一[2],和弦 无论是在古典音乐还是流行音乐中都占有核心的地位,对于丰富旋律表达方法,渲染乐思情 感,以及强调音乐主题素材等都有至关重要的作用。和弦由同时发生的几个音符构成,通过 音符之间的和谐程度及高低差别来体现旋律的变化。因此,和弦也是体现音乐特有谐波结构 的最基本单位[3] 。而如何描述和弦的这种结构特性也成为近些年来和弦识别工作的最大难点 之一。这方面的代表工作有,[4,5]提出用12维的音级轮廓特征(PCP)作为和弦模板进行模式 匹配来识别和弦,取得了一定的效果。而[6]提出用期望最大化算法(EM)来训练隐马尔可夫 模型(HMM)为和弦建模,用以分割和识别147种和弦,但由于识别对象数目过多,识别率不 [7] 尽如人意。这些工作全部是基于利用音级分布来描述人脑对和弦感知的“分布”式观点的 。 从本质上讲,对于和弦等的音乐属性的感知,目前面临两个难题:第一,我们不清楚人 类作为听者是如何分辨这些音乐属性的,人的神经系统是如何处理相关信息来帮助人感知音 乐的;第二,我们不能在混叠发声的多声部音乐中准确定位出每一个音符的音高,所以要面 对复杂的谐波结构。因此,本文采用 ANN 来处理和弦的感知问题。ANN 作为生物神经系 统的工程模拟,可以近似的模拟人的神经系统处理和弦感知信息的过程。我们还提出了一种 改进的PCP ,同样基于“分布”式观点的PCDM ,来作为ANN 的输入特征向量。而为了PCDM 能够更准确的描述和弦的音乐特征属性,我们提出了在利用比DFT 更适合音乐信号处理的 CQT 进行时频变换,并在此基础上进行音符起始点检测、音高校准、基频估计等一系列的 1 本课题得到863 计划(2006AA01Z187 )及国家自然科学基金项目的资助。 -1- 处理方法。 本文的第一部分提出基于CQT 的PCDM特征提取技术;第二节研究基于CQT 的音符起始 点检测和基频估计技术及它们在保证系统效率和准确率方面的作用;第三节则是对ANN 以 及整个和弦感知系统的介绍;在各种音乐风格上的实验结果及分析则列于第四节;最后给出 本文的结论及对未来的展望。 2 .基于CQT的预处理技术 2.1 常数Q变换 在西方音律体系中,每个八度音程中有 12 个音级以半音为间隔升序排列,且每个半音 的音程距离可以更加精确地分为100 个音分。进一步,两个距离1 个八度的音符的频率比为 2:1 ,则显然可得,音高相距1 个半音的两个音符的频率之比为12 2 :1。但是当我们在音乐信 号处理过程中使用离散傅里叶变换(DFT)作时频变换时,为得到间隔相等的频率分量,我们 采用了对数表示形式。这也导致了音乐信号不能有效地通过DFT 映射到频谱上,因为音符 之

文档评论(0)

177****9147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档