基于Speech SDK的语音记事本.docVIP

下载本文档

17
0
约1.02万字
约 17页
2021-01-06 发布于北京
举报
版权申诉

基于Speech SDK的语音记事本.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Speech SDK的语音记事本中文摘要：近年来，随着人工智能的逐渐兴起，人们对人机交互的要求也越来越高，能够使这一功能实现的基础的一点就是语音交互，我们可以利用speech SDK这一平台，在软件中实现语音和文本之间的交互，完成语音合成及语音输入之间的功能的实现。将speech SDK的相关功能添加到本次设计的记事本中，能更加快捷的为使用者提供舒适便捷的使用环境。在本次设计中，通过使用C#语言进行编写，能够完成设计记事本并使其具备语音合成以及语音输入的功能，以及其他一系列附加的功能，例如文本转换图片，背景音乐添加等。关键词：speech SDK，语音合成，语音输入，记事本第一章课题背景 1.1 语音记事本的国内外研究现状 1.1.1 语音输入的国内外研究现状语音输入就是说，计算机可以将人们说的话的内容通过相应算法转换为计算机可以理解的输入，例如二进制输入，语音输入和说话人的识别并不相同，说话人的识别主要是通过音色音调等相关参量来判断说话人是否满足条件，但是语音输入则不然，它不关注是谁发出的语音，它只关注发出语音的内容。语音输入就是为了让机器能够听明白并理解人们口头阐述的内容，而在这里有两种层次，其一是让机器听的懂人们发出的语言并逐字逐句的转化为书面语言，其二为对口头命令加以领会，并能够完成命令的正确回应，而不只是转化。在本次设计中，采用第一种方案，即当人们发出声音时，将其中所包含的内容转化为书面语言显示出来，方便人们在记事本中编辑。 Audry系统是人们在1952年研发出的一个款能够识别特定的人语音的十个英文数字的语音增强系统。1956年，美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统，该系统采用带通滤波器组获得的频谱参数作为语音增强特征，1959年，Fry和Denes等人尝试构建音素器来4个元音和9个辅音，并采用频谱分析和模式匹配进行决策，这样子极大的增强了语音输入的功效和准确性[1]。在这之后，计算机的语音输入相关研究开始受到了全世界各个国家和地区的科研人员的广泛重视，并开始了一系列的新的研发。 1960年左右，前苏联的科学家MaTIn等人提出了语音波束点的端点检测，以解决语音输入电平较低的缺点，这一发现使得当时的语音输入水平得到了长足的进步;与此同时，Vintsyuk提出了动态编程的相关概念，为以后的语音输入发展打下了良好的基础。在进一步发展的过程中，也发现并提出了一些重要成果，分别是信号预测编码(LPC)技术和动态时间规整(DTW)技术，这两项技术的发现，使得语音信号的特征提取和不等长语音匹配的相关问题得以迎刃而解。语音输入技术的主要作用在于它能够和语音合成技术结合起来，使得人们拜托鼠标键盘这些东西的约束，并改为语音输入这样便捷有效的具有人性化的输入方法，而且，语音输入在人们日常生活以及信息技术中扮演者越来越重要的角色。在我们国家，语音输入技术并不像世界上开始研究的那么早，而是在1950年左右才开始进行初步探索，但发展极为迅速，钻研对象也逐渐从实验室中的埋头苦干中走向了生活应用实际相关联。自从863计划的实施，在1987年之后，国家曾专门为语音输入这一充满前景的技术设立专项，到目前为止，中国语音输入技术的研究水平已基本与国外同步，在汉语语音输入技术上还有自己的特点与优势，而且已经达到国际先进水平[2]。为了保证中国语音输入的蓬勃发展，我国各大高校都在自己的研究机构内展开了对语音输入方面的研发。中国科学院自动化研究所及其附属模型技术公司(pattek)于2002年发布了Patek ASR，这是一款适用于不同计算平台和应用的中文语音产品系列。自1998年以来，中国语音输入产品的历史终于被外国公司所垄断[3]。 1.1.2 语音合成的国内外研究现状语音合成就是通过计算机来产生人工语音的技术，又称为TTS技术，在本次毕业设计中，所能实现朗读记事本相关内容就是应用了TTS技术，也就是将计算机内部自己产生的数据流转化为人们可以直接听懂的流畅的口语输出的技术。从开始研究语音合成到现在，这门技术的研究已经有两百多年的历史，然而具有现实意义的现代语音合成技术的发展是跟着计算机的不断发展和DSP技术的不断发展而逐渐进步的，因为语音合成技术本身就是为了能够让计算机产生较高明朗度、较高自然度的持续的语音。在语音合成的早期的发展中，主要的研究方法是采用参数合成的方法。值得一提的是Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980)，精心仔细的调整参数后，这两个合成器都可以合成出非常自然的语音[4]。从19世纪80年代末到现在，语音合成技术又有了