合肥工业大学生联合培养实践技术总结.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
合肥工业大学研究生联合培养实践报告 随着科学技术和信息化的快速发展,计算机在人类的生活中扮演着越来越重要的角色。人机交互能力也越来越受到研究者的青睐,语音合成技术作为人机交互的核心技术之一,在自然语言处理、数字信号处理、随机过程处理等方法的推动下,突破了传统的单纯语音计算算法的研究。近些年来,语音合成技术发展迅速,与其相关的语音学、语言学、自然语音处理、心理学也有了相应快速的发展,再加上人工智能、数字信号处理、嵌入式开发以及情感计算等也取得了迅猛发展,都为人机语音交互的研究提供了更好的理论基础以及发展方向。 国内外语音合成研究意义 语音是人们获取信息的一种最直接、最便捷的交流方式,语音中不仅包含了许多文字符号信息,还包含了不同说话人在不同情况下传达的多种情感的变化。语音合成是对输入的文字信息按照语言学规律进行分析,分段标记后,按照声学处理规则将文字转换成语音信号输出,即让机器读出文字信息,使人们通过“听”就可以明白信息的内容。 国内外语音合成技术的研究背景 语音合成的研究历史可以追溯到18世纪末,法国人W. Von Kempelen在1791年展示了一个机械式会说话的装置,机器内部采用了与声道结构类似的共振器,通过簧片改变音色,该装置可以产生元音、整个词语和语句。 自20世纪出现了电子合成器以来,语音合成的研究达到了飞速发展。1930年,贝尔实验室开发了声音编码器是用键盘操作的电子语音分析器和合成器ynchronous Overlap Add)的提出[3],较好地解决了语音拼接的问题,大大提高了合成语音的自然度。20世纪90年代中期,随着语音识别技术中统计模型的出现,研究者提出了可训练的语音合成技术,该方法是基于统计建模和机器学习的,根据一定的语音数据进行训练并快速构建语音合成系统。其中,以基于HMM的建模与参数生成合成方法为代表。 对于国内的中文语音合成的研究起步较晚, 从20世纪80年代开始,中科院声学所、中科院自动化所、中国科技大学以及社科院语言所都相继开展了这方面的研究,大致也经历了共振峰合成、合成PSOLA技术的过程如1993年中国科学院声学所的KX-PSOLA、 图1语音合成系统框图 4.1 文本分析与处理 文本分析与处理是使计算机能够识别文字,并根据上下关系在一定程度上对文本进行理解,从而知道要发什么音、怎么发音,并将发音的方式告诉计算机,另外还要让计算机知道文本中哪些是词,哪些是短语、句子,发音时应该停顿的位置和时长等。 文本分析与处理的工作过程包括: 图2文本分析与处理过程 (1) 将输入的文本规范化,在这个过程中处理用户可能的拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉; (2) 分析文本中的词或短语的边界,确定文字的读音,同时在这个过程中分析文本中出现的数字、姓氏、特殊字符以及多种多音字的读音方式; (3) 根据文本的结构、组成和不同位置出现的标点符号,来确定发音时语气的变换以及不同语音的轻重方式。最终,文本分析模块将输入的文本转换成计算机能够处理的内部参数,便于后续模块进一步处理并生成相应的信息。 4.2 韵律规则库 任何人说话都有韵律特征,有不同的声调、语气、停顿方式,发音长短也各不相同,这些都属于韵律特征。 韵律研究是一个复杂的系统工程,涉及到语言学、语音学、心理学、语用学等学科的综合知识。一个语音单元除了由元音和辅音按时间顺序排列的音段成分之外,还必须包括一定的超音段成分,否则这个音节就不可能成为有区别意义的有声语言。目前对韵律研究的重点是音高、音长、音强三个超音段参数在连续语流中的分布规律及其相互的作用,而研究的基本方法仍是基于对生理特征的分析及大语料库的统计分析,韵律特征的特点如表1. 韵律特征 波形特征 分布规律 相互作用及影响 音高 音高的大小对应于波形的基音周期 音高的调整则是按照目标值确定音高调整系数,对拼接单元的音高进行压缩和拉伸 连续语音的音高曲线融入了发音人的生理特征、感情、语义、语境以及很多的个人特征信息 音长 音长的调整对于稳定的波形段比较简单的 只需要以基音周期为单位加减波形即可 连续语流中的音节时长取值受很多因素的影响,如声韵结构、声调、音节所在词的结构、重音模式、音节在语流中的位置影响等 音强 音强对应于语音波形的幅度 音强的改变只需要加权波形数据即可,但是对于一些有重音变化的音节,幅度包络也需要改变 音强对于抑扬顿挫的语调的产生也是很重要的,为重音并不是通过提高语音的强度来表达,而首先是基频和音长的变化 表1 韵律特征的特点 目前,韵律是合成系统的薄弱环节,所用韵律模型都是对韵律普遍规律的单一应用。把韵律的共性与个性有机的结合起来,是提高语音合成系统自然度的关键。 4.3语音合成器的设计 线性预测合成方法是目前比较简单和实

文档评论(0)

4477769 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档