语音技术.docVIP

下载本文档

13
0
约 16页
2017-03-28 发布于江苏
举报
版权申诉

语音技术.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音技术

语音技术 ??? 　语音技术在计算机领域中的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）。 ?　　让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。 ?　　最早的语音技术因“自动翻译电话”计划而起，包含了语音识别、自然语言理解和语音合成三项非常主要的技术。语音识别的研究工作可以追溯到20世纪50年代ATT贝尔实验室的Audry系统，此后研究者们逐步突破了大词汇量、连续语音和非特定人这三大障碍。 ?　　让计算机说话需要用到语音合成技术，其核心是文语转换技术(Text?to?Speech)，语音合成甚至已经应用到汽车的信息系统上，车主可以将下载到系统电脑中的文本文件、电子邮件、网络新闻或小说，转换成语音在车内收听。 ??????? 语音识别和语音技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术.使电脑具有类似于人一样的说话和听懂人说话的能力,是90 年代信息产业的重要竞争市场.和语言识别相比,语言合成的技术相对说来要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术. ??????? 语言合成或者让计算机说话包含着二个方面的可能性:一是机器能再生一个预先存入的语音信号,就象普通的录音机一样,不同之处只是采用了数字存储技术.简单地将预先存入的单音或词组拼接起来也能作到机器开口,?但是一字一蹦,机器味十足,人们很难接受.然而如果预先存入足够的语音单元,在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来,也有可能生成高自然度的语句,这就是波形拼接的语音合成方法.为了节省存储容量,在存入机器之前还可以对语音信号先进行数据压缩.另一种可能是采用数字信号处理的方法,将人类发声过程看作是一个模拟声门状态的源,去激励一个表征声道谐振特性的时变数字滤波器, 这个源可能是周期脉冲序列,它代表浊音情况下的声带振动,或者是随机噪声序列,代表不出声的清音.?调整滤波器的参数等效于改变口腔及声道形状,达到控制发不同音的目的,而调整激励源脉冲序列的周期或强度,将改变合成语音的音调、重音等.?因此,只要正确控制激励源和滤波器参数(一般每隔10～30ms送一组),这个模型就能灵活地合成出各种语句来,因此又称作为参数合成的方法.根据时变滤波器的结构形式不同,又有LPC合成和共振峰合成器等之分. ???????? 按照人类言语功能的不同层次,语言合成也可分成三个层次,它们是:(1)从文字到语音的合成(Text-To-Speech);(2)从概念到语音的合成 (Concept-To-Speech);(3)从意向到语音的合成(Intention-To-Speech).这三个层次反映了人类大脑中形成说话内容的不同过程,涉及人类大脑的高级神经活动.不难想象,即使是按规则的文字到语音合成(文语合成)也已经是相当困难的任务.为了合成出高质量的语言,除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的内容有很好的理解,这将涉及自然语言理解的问题.从这一点讲,文语转换系统实际上也可看作一个人工智能系统.图1显示了一个完整的文语转换系统示意图.文语转换过程是先将文字序列转换成音韵序列,再由语音合成器生成语音波形.其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流.因此一般说来,文语合成系统都需要一套复杂的文字序列到音素序列的转换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的语言学知识的支持.当然其中语音合成终究还是最基本的部分,它相当于人工嘴巴,任何语言合成系统包括文语转换系统,都离不开语音合成器. 语音技术的方式 ????语音技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种. ????波形编辑合成,这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库.重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音.这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限. ????参数分析合成,这种合成方式多以音节、半音节或音素为合成单元.首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器.在合成器中,通过合成参数的控制,将语音