基于连续隐马尔可夫模型旋律检索算法探究.docVIP

下载本文档

3
0
约4.11千字
约 9页
2017-06-27 发布于福建
举报
版权申诉

基于连续隐马尔可夫模型旋律检索算法探究.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于连续隐马尔可夫模型旋律检索算法探究

基于连续隐马尔可夫模型旋律检索算法探究摘要：本文以CHMM为基础进行音乐哼唱检索算法的研究，实现了模型的建立、模型的训练和旋律识别过程。与已有建模方法不同，本文利用从左到右、没有跳转的CHMM结构建立声学模型，使旋律模型得到简化，明显提高了识别效率。用经过音调转换的音高序列表示旋律特征，利用CHMM的二重随机特性隐含表示音长信息，从而避免了音符切分，使哼唱方式更自然关键词：基于内容的旋律检索音高提取隐马尔可夫模型 1 连续隐马尔可夫模型的结构旋律由不同的音符依出现的时间先后组合而成，所谓不同的音符指的是音高不同的音符，或者具有相同音高但音长不同的音符。因此，本文利用从左到右、没有跳转CHMM来描述一段旋律，模型中的每一个状态描述了一个音符。为了适当缩短模型长度，减少计算量，一段旋律中有两个或以上相邻音符具有相同的音高，则将这些音符化分为一个状态这种CHMM的结构是非常简单的，相应的训练算法和识别算法的复杂度都会降低，数据空间的占用也比较小，检索效率比较高。模型结构如图1.1所示： 1.1 CHMM的状态数本文模型的每个状态一般描述一个音符，如果相邻的音符有相同的音高，那么把它们归并到同一个状态中。于是利用旋律所对应的乐谱（简谱或五线谱）就能够很方便的建立这段旋律对应的声学模型，并确定模型的状态数，图1.2便是一个例子。从图1.2中可以看出，该段旋律中音高相同的相邻音符被划分到同一个状态中，总共可以被分为三个状态 1.2 CHMM的观测值由于音高在频率大小上的可平移性，在许多文献中[1-4]，是使用音高差作为观测值的。但由于受噪音或是基频提取算法本身不准确的影响，很难获得一条旋律完全准确的音高序列。因此，本文利用基于FFT-ACF和候选值估计的音高提取方法[5] 得到一段旋律的音高序列后，进行音调转换，用音调转换后的音高序列来表示旋律的音高特征，作为CHMM的观测值进行音调转换的目的是减小不同使用者的哼唱习惯以及音域的不同带来的差异，所谓哼唱习惯以及音域的不同是指如女声普遍比男声频率要高这样的固有差别。音调转换的具体过程如下： ①得到了旋律音高序列后，利用下列式子将音高序列转换为半音(semitone)序列：（1.1） ②求半音序列的均值E，然后让半音序列逐点减去均值E，得到作为CHMM观测值的音高特征 1.3 CHMM的状态转移概率矩阵由于本文建立的旋律模型为从左到右、没有跳转的，因此状态转移矩阵PA（i，j）必须满足（1.2）式： 1.4 CHMM的观测状态概率值本文使用经过音调转化的音高序列作为CHMM的观测值，而音高序列只是1维向量，因此CHMM的观测状态概率值可由化简为 (1.3) 在本文中，使用1维高斯概率密度函数的对数形式，这样可以把乘法运算改为加法运算，提高计算效率，如（1.4）式所示： 2 CHMM的参数训练和识别在进行模型匹配检索以前，需要获得CHMM的最佳参数值，也就是参数的训练过程。CHMM的参数训练主要是指状态转移矩阵和观测状态概率值的训练 2.1 参数初始化 CHMM的参数初始化一般有两种方法，一是利用乐谱或MIDI音乐进行初始化，二是利用均分法进行初始化。现分别简述如下： ①利用MIDI音乐进行初始化：对于观测状态概率值，CHMM的每个状态的观测状态概率值由高斯概率密度函数表示，实际上它是由（1.4）式中的均值μj和方差 σj确定的。初始化时，每个状态的均值μj等于对应音符的音高（由MIDI语料获得，且经过音调转换），方差σj设为1 对语音信号一般进行分帧处理，当帧的大小固定时，帧数多少可以表达旋律的音长信息。当通过MIDI音乐得到音符的音长后，则根据采样率、帧长可以求得音长对应的帧数，如下式： N=t×FS/(FrameSize-Overlap) （1.5）其中t为音符的音长，FS为采样率，FrameSize和Overlap分别表示帧长和帧间重叠长度。假设状态i对应的音符含有N帧，由于该状态中只有最后一帧能转移到下一个状态，则有状态转移概率矩阵PA（i，i+1）=1/N，PA（i，i）=1-1/N ②利用均分法初始化：均分法过程可简单由图2.1所示，将每条语料的帧数平均划分到每个状态中，分别计算属于每个状态的所有帧的音高特征序列的方差和均值，作为观测状态概率值的均值μj和方差σj。对状态转移概率矩阵，假设每个状态共有M帧，一共有T句语料参与训练，则PA（i，i+1）=T/M，PA（i，i）=1-T/M 因为在训练时需要反复迭代语料，直到达到收敛条件为止，使用MIDI音乐进行初始化和利用均分