基于语音增强的基频提取算法在语音识别上的应用分析-application analysis of speech enhancement based fundamental frequency extraction algorithm in speech recognition.docxVIP

下载本文档

19
0
约3.75万字
约 54页
2018-08-14 发布于上海
举报
版权申诉

基于语音增强的基频提取算法在语音识别上的应用分析-application analysis of speech enhancement based fundamental frequency extraction algorithm in speech recognition.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语音增强的基频提取算法在语音识别上的应用分析-application analysis of speech enhancement based fundamental frequency extraction algorithm in speech recognition

第一章绪论1.1课题背景让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。如果人与计算机之间的交流可以像人与人之间自如地交流，那么会极大地提高人机交互的易用性。事实上，如何用语音与机器进行自如地交流一直是人们努力追求的目标。这个目标的实现，则需要借助语音识别、语音合成和语音转换等技术的发展。在这些关键的技术中，自动语音识别(AutomaticSpeechRecognition,ASR)因其复杂性成为其中最难以突破的技术。而同时，自动语音识别的技术的突破和发展往往带来语音技术的突飞猛进。因此，近些年来，国内外的科技界和工业界都投入大量的人力和物力来促进语音技术领域的前沿研究和产业发展，来满足人们信息科技产业需求。最早的语音技术因“自动翻译电话”计划而起，包含了语音识别、自然语言理解和语音合成三项非常主要的技术。现代自动语音识别技术的发展历史最早可以追朔到上个世纪50年代[1]，美国公司实验室的研究员在第一次通过从语音信号中提取出的共振峰变化信息，来实现了对英文数字进行识别的功能，并取得较好的识别性能。接着到了60年代，前苏联的学者提出一系列优化算法，解决了语音识别中的模板与语音实例中间的对齐问题。动态规划(DynamicProgramming,DP)[2]算法是其中最为出名的算法。上述的技术发展为后面的语音技术的大发展做出了深厚的基础。后来到70年代，用特征信息来表征语音的思想被提出。这期间各种有效的语音特征参数被一一提出。尤其是线性预测系数（LinearPredictiveCoeficients,LPC）和梅尔频率倒谱系数（Mel-FrequencyCepstralCoeficients,MFCC）等参数[3]，用这些相关特征进行语音识别的系统被逐渐构建处理。后来，在美国国防部高级研究计划署(DefenseAdvancedResearchProjectsAgency,DARPA)大力推动并提供大量的资金支持下，越来越多的优秀学者和研究机构，参与到语音识别这个研究领域中来，从而推动各种语音识别技术不断推陈出新。这其中就包括，就包括著名的卡耐基梅隆大学(CarnegieMellonUniversity,CMU)、剑桥大学、Microsoft和IBM等。到达上个世纪八九十年代，隐马尔科夫模型（HiddenMarkovModel，HMM）在语音识别领域得到了很成功的应用，自此语音识别的研究达到了一个热潮。自从HMM模型引入到语音识别领域后，语音识别就从简单的基于模板匹配的技术桎梏中解放出来，开始进入了全新的一种框架即是基于统计模型的识别体系。接着后面的一段时期，HMM的理论在语音识别中的各种应用和实践逐渐趋于完善和成熟[4]。并且各种关键技术被很快提出并完善。这些技术都是用来解决出现在HMM框架下自动语音识别中的问题，例如用于HMM模型自适应的最大后验概率准则估计(MaximumA-PosterioriEstimation,MAPEstimation)、用于提高语音识别鲁棒性的最大似然线性回归(MaximumLikelihoodLinearRegression,MLLR)[5]，以及用于模型参数绑定的决策树聚类[6]等。虽然HMM技术在不断推广和完善，上述的技术仍然是语音识别进行声学模型求解过程中最为重要和关键的方法。接着，各种大企业和公司加入到语音识别研究的领域中来，从而更多更完善的自动语音识别系统被很快推出，包括CMU的Harpy系统、IBM的面向听写机系统[7]等。此外，还有一些更加实用更加友好的工具被开发出来，这其中包括一些面向人机交互的语音识别系统，如Nuance公司开发的DragonSearch系统、音乐识别软件Shazam，以及谷歌公司的GoogleTranslate等。后来，为了给各大研究机构提供一个平台来评估其系统的识别性能，DARPA和美国国家标准和技术研究所(NationalInstituteofStandardsandTechnology,NIST)制定了越来越多的语音识别任务，各家研究机构同构参加比赛来不断提高其系统的识别性能；同时相应的标准数据库也被建立起来。其中就包括海军资源管理(ResourceManagement,RM)、华尔街日报(WallStreetJournal,WSJ)、Switchborad等。这些标准数据库为语音信号处理领域的发展提供了较为有效和权威的平台，使得各家研究机构可以通过这个平台客观的对比各种技术。在这发展时期，还出现了一个重要的技术就是著名的声学模型区分性训练(DiscriminativeTraining,DT)[7]技术。这项技术更多地强调如何在目标准则函数下优化模型的参数，这与以往的最大似然