- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《语音信号处理》第8章 语音合成 第8章 语音合成 8.1 概述 8.2 共振峰合成法 8.3 线性预测合成法 8.4 文语转换系统 8.1 概述 8.1.1 语音合成的定义 8.1.2 语音合成的应用 8.1.3 语音合成的方法 8.1.1 语音合成的定义 语音合成是通过机械的、电子的方法产生人造语音的技术 。它的目的是使一些以其他方式表示或存储的信息能转换为清晰可懂的语音,从而让人们能够利用听觉获取这些信息 8.1.1 语音合成的定义 8.1.2 语音合成的应用 传统语音系统的缺陷 需要对信息文本进行录音并保存为声音文件,占用存储空间和工作量大 不能动态反映信息的更新,应用范围有很大局限 8.1.2 语音合成的应用 语音合成技术的优势 无需对信息文本进行录音,极大地节省了存储空间和减少了工作量 能动态反映信息的变化,应用范围广 几个语音合成应用的实例 查询系统 话费查询、考试结果查询、股票交易查询等 几个语音合成应用的实例 有声词典 单词、例句朗读等 电脑游戏 目前游戏中人物只能说出事先录好的语音。利用语音合成技术可以让人物说出任意语句,同时具有不同说话风格和语气,从而大大加强游戏的趣味性和互动性 8.1.3 语音合成的方法 8.1.3.1 波形合成法 8.1.3.2 参数合成法 8.1.3.3 规则合成法 8.1.3.1 波形合成法 波形合成法一般分为两种,一种是波形编码合成,另一种是波形编辑合成。波形合成法是一种相对简单的合成技术,通常只能合成有限词汇的语音段。许多专门用途的语音合成器都采用这种方式,如自动报号、报时、报站、报警等 8.1.3.1 波形合成法 8.1.3.2 参数合成法 主要步骤: 利用语音信号的短时平稳性,提取出每帧语音信号的声学参数,将这些参数编码后组成一个语音参数库 输出时,从语音参数库中取出相应的参数,利用合成算法恢复语音 主要的合成参数有:控制音强的幅度参数、控制音高的基频参数和控制音色的共振峰参数 共振峰合成和线性预测合成是该类合成技术中的重要方法 8.1.3.2 参数合成法 优点 所需音库一般较小 整个系统能适应的韵律特征范围较大 音质适中 缺点 算法复杂,参数多 压缩比较大时合成的语音不够自然清晰 8.1.3.3 规则合成法 主要步骤 系统中预先存储音素的声学参数,以及由音素组成音节、音节组成词、词组成句子和控制音调、轻重音等韵律的各种规则 给出需要合成的语句后,系统根据相应规则自动将它们转换成语音声波 8.1.3.3 规则合成法 特点 合成的词汇表不是事先确定 可以合成无限词汇的语句 小贴士:语音合成的基本术语1——合成单元(Synthesis Unit) 也称为合成单位,是语音合成系统所处理的最小的语音学基本单位 按由小到大的顺序排列,语音学中的音素、双音素、半音节、音节、词、短语和句子都可以用作合成单元,合成单元越大,合成语音音质越好,但合成语音的数量及其数码率也越大 在波形合成中,合成单元较大,多为词、短语或句子 在参数合成和规则合成中,有些语言(如英语或日语)的合成多采用音素,辅音加元音和元音加辅音等合成单元;有些语言(如汉语)的合成单元多采用音节和声、韵母作合成单元 小贴士:语音合成的基本术语2——合成参数(Synthesis Parameters) 在参数合成和规则合成方式中,控制语音合成器以输出所需语音的一组参数 合成参数分为两类 音色参数(音段参数),常用的有:共振峰频率,线性预测系数和生理发音参数 韵律参数(超音段参数),主要有控制音强的幅度参数,控制音高的基频参数,控制音长的时间参数等 小贴士:语音合成的基本术语3——合成语音库(Database for Synthesis) 在语音合成系统中,所有合成单元的编码数据或合成参数数据的集合称为合成语音库 对于波形合成,语音库中存储的是合成单元的波形编码 对于参数合成,语音库中存储的是各合成单元逐帧的合成参数 对于规则合成,语音库中存储的是各合成单元的声学参数和一系列合成规则 PSOLA算法 核心思想 :直接对存储于音库的语音运用PSOLA算法进行拼接从而合成完整的语音 主要特点:有别于传统概念中只是将不同的语音单元进行简单拼接,PSOLA系统首先要在大量语音库中,选择最合适的语音单元用于拼接,使合成波形既保持了原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获得很高的清晰度和自然度 选音 对于同一个合成单元,由于语境不同,重音表现不同,其声学特征有很大不同,因此可以建立多样板语音数据库,合成时根据某种规则或模型选择最合适的单元 选音过程中往往采用多种复杂的技术,包括多项统计学上的技术或神经网络技术,如日本ATR推出的多语种语音合成系统,就
文档评论(0)