基于聚类分析的连续语流中音节基频模式的发现.doc

下载文档 降价啦

2
0
约8.11千字
约 6页
2017-12-27 发布于江西
举报
版权申诉
保障服务

基于聚类分析的连续语流中音节基频模式的发现.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于聚类分析的连续语流中音节基频模式的发现

基于聚类分析的连续语流中音节基频模式的发现朱廷劭高文中国科学院计算技术研究所北京 100080 摘要：基频变化规律对于语音合成和语音学研究具有重要意义，而目前的相关研究大多是以经由人工总结出的定性描述为基础进行的。为了有效地进行韵律规则获取及更深入的研究，本文利用聚类分析从实际语音数据中提取出连续语流中音节基频模式，从而使得对基频变化规律的研究可以在定量的基础上进行，为基频规律的更深入研究提供了一条途径。下面首先介绍有关背景知识以及进行基频模式发现的处理过程，然后介绍数据预处理技术以及所采用的聚类算法，最后给出实验结果。关键字：基频变化，基频模式，聚类分析 Abstract: Pitch models are very important in the speech research and speech synthesis, but now the models are extracted by hand qualitatively and with low precise. To make it possible to acquire prosodic rules more efficiently, clustering is employed to extract pitch models from actual speech for future research, and the results are good enough. This paper gives some background at first, then data preprocessing and clustering analysis are introduced in detail. Some experiment will also be given at the end of this paper. Keyword: Pitch Variation, Pitch Model, Clustering Analysis 1 引言在语音学研究中，基频是语音信号最重要的参数之一[1]。基频变化规律对于语音合成和语音学研究具有重要意义[2]，但是目前进行的基频变化规律提取主要是以人工总结为主，且大多只是给出定性的描述，这不利于韵律规则的应用和更深入研究。吴宗济[3]曾对汉语的两字组的声调模式做过很多研究,给出了一些定性的描述。林茂灿等[4]通过对普通话两字组正常重音的声学分析，得到关于普通话两字组中前后音节的音长和音高的关系描述。冯隆[5]对北京话中声韵母对时长的影响进行了比较全面的研究，得到了声母时长以及单韵母时长在不同情况下的比例关系，并给出了词句子以及说话速度对时长的影响的定性描述。在传统的语音研究中，往往根据手工得到语音的基频，求出调值，然后根据不同情况下的调值变化得到连续变调规律。这种主要在定性的基础上进行的研究，存在很多不足之处，一方面由于语音数据变化随机性很大，对少量的语音数据进行处理不能得到较为全面的变调规律，而大量语音数据如果完全由人工来处理工作量会很大；另一方面由人工进行语音数据处理，往往会由于一些先入为主的概念使得很难得到较为完全的规律。目前很多专业领域大量采用数据分析技术进行数据分析，取得了很好的效果，如利用数据挖掘进行客户购买模式的发现，但这些分析技术必须在定量基础上进行，所以如何为基频变化规律的研究提供一个定量的基础成为是否能够在语音分析中采用其他分析技术的关键。本文假设连续语流中音节基频曲线不是各个不同的，而是在一些典型基频曲线的基础上可以通过简单变换得到，这样利用这些典型基频模式就可以对基频的变化规律进行更进一步的研究。为了获取这些典型的基频曲线，首先对语料库中的句子语音波形进行切分和基频标注，得到每个句子中所有音节的基频，然后通过对所有音节的基频进行长度归整和平滑处理得到用于聚类分析的数据，这样就可以通过聚类分析得到基频模式。下面将逐步介绍所采用的技术。 2 数据预处理通过音节切分和基频标注后得到的每个音节的基频长短不一，而且不平滑，这样的数据无法进行聚类分析。因此必须对数据进行预处理，使其满足聚类分析的要求。 2.1 数据准备语音数据库采用的是语音合成语料库CoSS-1，它是863支持项目，由清华大学计算机系、中国科学院声学研究所和社会科学院语言研究所共同完成的。本文采用了一个女声的全部1268个有调音节和265个句子，这些语料尽量涵盖了音段和超音段的音联现象，并且同步录制语音声压波形和声门波阻抗波形。通过对语料库中句子的每个音节进行切分和基音标注，可以得到句子中每个音节的基频序列。 2.2 长度归整进行训练的每个音节的基频序列的长度有很大差别，为了满足聚类分析的要求，必须将