语音合成基于超声的口腔声学器官运动模型-软件工程专业论文.docxVIP

下载本文档

2
0
约6.74万字
约 63页
2018-05-05 发布于上海
举报
版权申诉

语音合成基于超声的口腔声学器官运动模型-软件工程专业论文.docx

1、本文档共63页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音合成基于超声的口腔声学器官运动模型-软件工程专业论文

摘要语音信号处理一直是计算机科学、工程研究的热门领域，语音自动识别和合成技术的初步应用已经得到了普及，然而现今大多数成熟商业系统仍然无法提供自然、准确的语音交互体验。在这样的背景下，部分研究学者寄希望于对发声生理过程进行研究，以此推动语音相关技术的研究。于是，大量的捕获声学器官运动的传感器被开发出来，尝试着从不同角度建立发声中声学器官运动与语音信号间的关系。本文提出了从语音信号合成口腔内部声学器官运动超声图像的框架，系统通过对输入的语音信号进行特征提取，然后通过映射模型计算出超声图像的特征参数，并使用该特征参数重构出超声图像。本文首先总结介绍了现有常见映射模型，包括基于语言学和基于帧对帧的模型；然后通过介绍语音生成模型和Silent Speech Interface来对该系统的实际应用场景有更深入的理解；接着描述了本实验所使用的基于超声的多模态语料库；最后详细描述了基于k-means和Gaussian Mixture Model的映射模型的原理和实现。通过客观定量的和主观感知的评价实验可以证明，本文提出的方法是具有高准确度和高可用性的。本文的研究成果有利于研究语音信号与发声器官运动间的关系；可应用于发声过程口腔内部的可视化，帮助进行外语学习、发声恢复以及疾病诊断等；适用于对超声语料库进行模拟和扩充。关键词：多模态接口；静音语音接口；关节合成；超声；统计映射ABSTRACTSpeech signal processing is one of the most popular research field in Computer Sci- ence research and engineering. Although the basic use of the automatic speech recognition and the text-to-speech technology is universal at present, most commercial system cannot provide an accurate and intuitive interaction experience. In such background, some re- searchers hope the study of relations between the articulatory and acoustic could inspire the speech signal processing research. Nowadays, many sensors has been developed to build these relationships.In this thesis, a framework which synthesize the continuous ultrasound based articula- tory movement from speech signal is proposed. The system take the speech features as input and use mapping methods to synthesize the features of ultrasound images. After that, ultra- sound images will be reconstructed from image features. At first, we describe the existing mapping methods: phonetic based and frame-by-frame based; next, the speech production model and Silent Speech Interface are introduced to give readers a better understanding of the application