- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(1) 语音特征提取。其目的是从语音波形中提取出随时间变化的语音特征序列。 (2) 声学模型与模式匹配(识别算法)。声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 (3) 语言模型与语言处理。语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型。 语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时,人们可以用这些知识来指导对语言的理解过程。但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难。对不同词汇量语音识别系统的描述如下: (1) 小词汇量语音识别系统:通常包括几十个词的语音识别系统。 (2) 中等词汇量语音识别系统:通常包括几百个词至上千个词的识别系统。 (3) 大词汇量语音识别系统:通常包括几千至几万个词的语音识别系统。 2 . 语音识别技术的发展情况 我国语音识别研究工作起步于20世纪50年代,但近年来发展很快,研究水平也从实验室逐步走向实用。从1987年开始执行国家“863”计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。 (二)语音合成技术 当前,语音合成的研究已经进入文字-语音转换(TTS)阶段,其功能模块可分为文本分析、韵律建模和语音合成三大模块。其中,语音合成是TTS系统中最基本、最重要的模块。 概括起来说,语音合成的主要功能是:根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。 1. 共振峰合成技术 语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。 在图1-4所示的某一语音的频率响应图中,标有Fp1,Fp2,Fp3,… 处为频率响应的极点,此时,声道的传输频率响应有极大值。习惯上把声道传输频率响应上的极点称之为共振峰,而语音的共振峰频率(极点频率)的分布特性决定着该语音的音色。 图1-4 声道频域特性(频率响应图) 由于音色各异的语音具有不同的共振模式,因此,以每个共振峰频率及其带宽作为参数,可以构成共振峰滤波器。用若干个这种滤波器的组合来模拟声道的传输特性(频率响应),对激励源发出的信号进行调制,再经过辐射模型就可以得到合成语音,这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型: ● 级联型共振峰模型。在该模型中,声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。 ● 并联型共振峰模型。许多研究者认为,对于鼻化元音等非一般元音以及大部分辅音,由于上述级联型模型不能很好地加以描述和模拟,因此,构筑和产生了并联型共振峰模型。 ● 混合型共振峰模型。在级联型共振峰合成模型中,共振峰滤波器首尾相接;而在并联型共振峰模型中,输入信号先分别通过幅度调节再加到每一个共振峰滤波器上,然后将各路的输出叠加起来。将两者比较,对于合成声源位于声道末端的语音(大多数的元音)而言,级联型合乎语音产生的声学理论,并且无需为每一个滤波器分设幅度调节;而对于合成声源位于声道中间的语音(大多数清擦音和塞音)而言,并联型则比较合适,但是其幅度调节很复杂。基于此种考虑,人们将两者结合在一起,提出了混和型共振峰模型,如图1-5所示。 图1-5 混和型共振峰模型 2. LPC合成技术 波形拼接合成技术的发展与语音的编、解码技术的发展密不可分,其中,LPC技术(线性预测编码技术)的发展对波形拼接合成技术产生了巨大的影响。 LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。 一种典型的基于单音节和VQLPC(矢量量化的LPC)技术的文语转换系统原理图如图1-6所示。 3. PSOLA拼接合成技术- 20世纪80年代末提出的PSOLA合成技术(基音同步叠加技术)给波形拼接合成技术注入了新的活力。PSOLA技术着眼于对语音信号超时段特征的控制,如对基频、时长、音强等的控制。这些参数对于语音的韵律控制以及修改是至关重要的。PSOLA技术比LPC技术具有可修改性更强的优点,可以合成出高自然度的语音。 图1-6 文语转换系统原
文档评论(0)