基于语法信息的汉语韵律结构预测-chinese prosodic structure prediction based on grammatical information.docx

下载文档 降价啦

10
0
约6.46万字
约 85页
2018-08-14 发布于上海
举报
版权申诉
保障服务

基于语法信息的汉语韵律结构预测-chinese prosodic structure prediction based on grammatical information.docx

1、本文档共85页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于语法信息的汉语韵律结构预测-chinese prosodic structure prediction based on grammatical information

独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包括其他人已经发表或撰写过的研究成果，也不包含为获得西北师范大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：日期：关于论文使用授权的说明本人完全了解西北师范大学有关保留、使用学位论文的规定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。（保密的论文在解密后应遵守此规定）签名：导师签名：日期：第1章引言1.1研究背景及意义当今，计算机已经成为人类获取和传输信息的主要渠道。但计算机屏幕显示信息的单调输出方式给用户带来许多不便。特别是在大量信息输出的情况下，长时间地注视显示屏容易使人降低获取信息和理解信息的效率。而语言是人类特有的功能，语音是语言的声学表现形式，用语音传递信息是人类交流信息最自然、最有效、最快捷的手段，是人类进行思想沟通、感情交流的主要途径。如果计算机具备语言能力，能够对信息进行讲解，并能声-文并茂地提供信息，则会改变人机交互“默默无闻”的状况，让人机交互更为自然、便捷。应用上的需求以及计算机技术和人工智能等技术的日益发展和逐步完善，使人们对语音和语言的研究进入了一个新的时期。对她的研究也已经不仅仅涉及到计算机技术、数字信号处理技术、模式识别、人工智能、自然语言理解等学科，而且涉及到心理学、语言学等认知科学类学科，其研究目的也已不仅仅只是“弥补听官之不足或方便文字之录入”，更重要的是揭示言语交际的机理，获取自然语音中的各种知识和信息，并为人类的信息交流服务。针对语音技术，国内外的科研机构已经取得一些成果。国内一些科研单位对汉语TTS进行了大量的研究[11]，其中有清华大学的TH-Speech、中国科技大学D的KDTALK、KD-863、KD2000、中科院声学所的KX-PSOLA等TTS系统都取得了很好的成绩。世界上许多著名的计算机厂商或公司也已取得一些研究进展，如，Lucent、ATR、Siemens、LH、IBM、Microsoft、Dialogic和Motorola等，现已研究出多种语言的TTS系统，如汉、英、法、日、德等。其应用领域也在不断的扩大，如法国CNET公司已将其多语种TTS系统运用于电话网中的公共话音服务。研究背景人类生成语音的过程，大致要经过以下过程：首先将思维意向转换成概念，然后将概念转换成人类的生理控制信号，最后控制发音器官产生语音，因此，按照人类言语功能的不同层次，语音合成可以分成三个层次：(1)从文字到语音的合成（Text-To-Speech）；从概念到语音的合成（Concept-To-Speech）；从意向到语音的合成（Intention-To-Speech）。这三个层次反映了人类大脑中形成说话内容的不同过程，涉及人类大脑的高级神经活动。但目前，人们对人类大脑的高级神经活动了解甚少，语音合成还只限于从文字到语音的转换层面上，即文-语转换。现有的文-语转换合成系统是一种能再生一个预先存入的语音信号的机器，简单地将预先存入的单音或词组拼接起来也能作到“机器开口”，但是“一字一蹦”，机器味十足，人们听起来感觉不舒服。现阶段的解决办法，是预先存入足够的语音单元，在合成时采用恰当的技术手段挑选出所需的语音单元拼接起来，从而提高合成语音的自然度，这就是波形拼接的语音合成方法。虽然这些合成语音在语音的可懂度、清晰度上都达到了很高的水平，但在句子及篇章的语音自然度和可懂度上的表现相对较低，因此，现今语音合成研究的重点就转移到如何提高整句或整段文本的连续语音的自然度上。要提高任意文本合成系统中输出语音的自然度，获得输入文本的详尽语言学或语音学知识成为提高自然度必不可少的手段因此在文本分析阶段，结合自然语言处理和人工智能的研究成果，在“充分”理解文本的基础上，分析出文本的韵律特性（节奏、重音、语气等），甚至轻重缓急、感情风格等情感信息，并将这些信息输送给合成系统，使其对合成语音进行调节，从而能够提高输出语音自然度，就成为了解决这个研究课题的主要手段。研究意义语音合成技术是实现人机语音交互的关键技术，现阶段的目的是制造用于将文本信息转换成为语音信息的会讲话机器。当前的语音合成技术已经能够使电脑具有一定的说话能力，能够输出清晰、可懂得合成语音，但仍然存在一些亟待解决的问题，例如连续合成语音的自然度有待进一步提高、合成语音的表现力也不够丰富。这些问题归纳起来都集中在我们对韵律现象规律的理解和掌握不足上，充分理解和掌握韵律现象的规律，不仅对于韵律规则的制定以及韵律模型描述的定量量化都具有重要的意义。而韵律规则的充分