孤立词系统分析.doc

下载文档 降价啦

5
0
约1.63万字
约 21页
2017-03-12 发布于天津
举报
版权申诉
保障服务

孤立词系统分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

孤立词系统分析.doc

基于统计的语音识别方法分析报告报告人：林常志一、摘要 1 二、语音识别发展史及现状 1 （1）国外研究历史及现状 1 （2）国内研究历史及现状 2 三、语音识别的几种基本方法 3 （1）基于语音学和声学的方法 3 （2）模板匹配的方法 4 （3）神经网络的方法 6 四、基于统计的方法分析 6 （1）语音信号预处理与特征提取 7 （2）声学模型与模式匹配 9 （3）语言模型与语言处理 12 五、已有孤立词系统分析 13 （1）前端信号处理 13 （2）声音模型处理 13 （3）拼音汉字处理 18 六、主要参考文献 18 一、摘要概括语音识别的发展史及现状，总结语音识别的基本方法，并对基于统计的方法作主要的论述，包括语音信号预处理和特征提取的分析，隐马尔可夫模型的分析与在语音识别中的应用分析，模型的训练和识别方法分析等等，最后介绍已有孤立词系统。二、语音识别发展史及现状（1）国外研究历史及现状语音识别的研究工作可以追溯到20世纪50年代ATT贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统；同时提出了矢量量化(VQ) 和隐马尔可夫模型(HMM) 理论。随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音（Co-articulation）现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其它干扰。因此原有的模板匹配方法已不再适用。实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学(Carnegie Mellon University)的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期，语音识别研究进一步走向深入，其显着特征是HMM模型和人工神经元网络(ANN) 在语音识别中的成功应用。HMM 模型的广泛应用应归功于ATT Bell 实验室Rabiner 等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别系统。在声学模型方面，以Markov链为基础的语音序列建模方法HMM（隐式Markov链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。 20世纪90年代前期，许多著名的大公司如IBM、苹果、AT＆T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, Nuance公司的Nuance Voice Platform语音平台，Microsoft的Whisper, Sun的VoiceTone等。其中IBM公司于1997 年开发出汉语ViaVoice 语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice’98 。它带有一个32 ,000 词的基本词汇表，可以扩展到65 ,000 词,还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95 %。该系统对新闻语音识别具有较高的精度，