数字语音处理技术研究..docxVIP

下载本文档

15
0
约6.47千字
约 6页
2017-01-13 发布于重庆
举报
版权申诉

数字语音处理技术研究..docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数字语音处理技术研究.

语音合成技术研究语音合成技术是利用电脑, 按规定的程序和指令, 人为产生语音的技术。语音合成是一门跨学科的前沿技术, 涉及语言学、语音学、信号处理、心理学、声学等学科。语音合成的目的是让计算机说话。比如, 将文本文件内容、Word 文件内容等文字信息按语音处理规则转换成语音信号输出, 使计算机流利地读出文字信息, 使人们通过“听”就可以知晓信息的内容。这种将文字转换成语音的技术称之为文语转换( TTS) 。TTS 是当前语音合成技术研究的主要方向。一般人机交换信息的方式是采用键盘和显示器, 随着科学技术的发展, 现在已经出现了方便、迅速、有效的人机通信方式, 那就是计算机语音识别与合成。这种技术可以应用于各个部门。例如, 在办公自动化系统中, 使计算机具有讲话和聆听理解的能力能大大提高办公人员的工作效率在邮电部门, 用口呼语音控制分拣邮包, 用口呼语音自动查报电话号码在军事部门, 可用口呼语音来指挥系统在民政部门, 可让四肢残疾人的轮椅听命于残疾人日呼的控制命令在保密单位, 可用声音做成身份鉴别系统计算机语音教学目前也发展迅速。总之, 无论从哪个角度来讲, 语音识别的研究在全世界正方兴未艾, 其意义深远, 应用领域宽广, 语音和计算机的结合将使计算机的发展提高到一个新的水平。1 语音合成的研究历史及现状语音合成最早可追溯到17 世纪, 法国人研制了一个机械式的会说话装置。自19 世纪出现了电子合成器后, 语音合成研究得到飞速发展[3]。1939 年, 贝尔实验室H.Dudley 制作的第1 个电子合成器VODER 在美国纽约的博览会上展出。它是利用共振峰原理[4]制作的语音合成器, 能产生连续的语音。语音学研究结果表明, 决定语音感知的声学特征主要是语音的共振峰。音色各异的语音具有不同的共振峰模式, 因此, 以每个共振峰频率及其带宽作为参数, 可以构成共振峰滤波器, 然后用若干个这种滤波器的组合来模拟声道的传输特性( 频率响应) , 对激励源发出的信号进行调制, 再经过辐射模型就可以得到合成语音。1960 年, 瑞典语言学家和言语工程学家G.Fant 在《AcousticTheory of Speech Production》中系统阐述了语音产生的理论, 推动了语音合成技术的发展。线性预测编码( LPC) 分析[5]是最有效的语音分析技术之一, 利用该技术可对语音产生模型的参数进行准确估计。LPC 合成技术本质上是一种时间波形的编码技术, 其目的是为了降低时间域信号的传输速率。20 世纪70 年代以后, 线性预测技术开始用于语音编码和识别。同时, 可根据线性预测参数用多种方法来综合语音。1980 年, MIT 教授D.Klatt 设计了串/并联混合共振峰合成器[6]。它用串联通道产生元音和浊辅音、并联通道产生轻辅音,还可对声源作出各种选择和调整, 模拟不同的嗓音。20 世纪80 年代末, Moulines E 和Charpentier F 提出基于时域波形修改的语音合成算法PSOLA [7~10]。PSOLA 技术着眼于对语音信号超时段特征的控制, 如基频、时长、音强等, 而这些参数对于语音的韵律控制及修改至关重要。因此, PSOLA 技术与LPC 技术相比具有可修改性更强的优点, 可以合成出高自然度的语音, 从而推动了波形拼接语音合成与文语转换技术的发展和应用。20 世纪80 年代, 我国开始介入汉语TTS 领域的研究。清华大学中国科学院声学所、中国科技大学等单位都开展了相关研究工作并取得较好成绩,有些研究成果已转化为产品得到了实际应用, 如清华大学的Sonic 系统、中国科技大学的DK- 863汉语文语转换系统等。2 语音合成系统的组成语音合成系统主要包括3 部分: 文本分析模块、韵律生成模块和合成语音模块, 其结构见图1。图一：语音合成系统框图其中, 合成语音模块是最基本、最重要的模块。文本信息首先由文本输入模块读入; 接着文本分析模块即文本的预处理模块, 主要完成自动分词、多音字处理、特殊符号的转换、文本的切分等, 然后将处理好的数据送入韵律生成模块和合成语音模块; 韵律生成模块根据各项合成规则规划出目标音高、音长、音强、停顿及语调等, 将规划的结果参数送入合成语音模块; 合成语音模块利用合成算法合成出满足目标要求的音节波形数据, 将其拼接成语音流数据送入语音输出模块,最后由语音输出模块输出语音。3 常见语音合成技术语音合成技术经历了一个逐步发展的过程, 从参数合成到拼接合成再到两者的逐步结合, 其不断发展的动力是人们认知水平和需求的提高。目前, 常用的语音合成技术主要有共振峰合成、发音器官参数合成、LPC 合成、PSOLA 技术和LMA 声道模型[11]技术。它们各有优缺点, 人们在应用过程中往往将多种技术有机结合