第九讲、自然语言认知接口.pptVIP

下载本文档

2
0
约9.21千字
约 38页
2017-04-25 发布于上海
举报
版权申诉

第九讲、自然语言认知接口.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第九讲、自然语言认知接口

第九讲、自然语言认知接口;在对智能化程度有相当高要求的虚拟环境系统中，人们必然会对语音接口、文字接口和自然语言理解接口等功能提出要求。如要求能够听得懂用户用语音发出的命令，能读得懂用户用手写的文字和符号，能够理解用户说的一长段话，能够将用户说的一种语言自动翻译成另一种语言；军事虚拟环境系统中指挥员用语言发出命令，遥操作和遥现系统中用笔输入板作为人与系统交互的手段，全球网络虚拟环境中不同国家的人讨论和会话时各自用各自国家的母语等等。语音识别与合成实现VR系统时，让计算机具有听与说的能力显然是非常重要的。VR系统应当具有对环境的语音与音响感知能力，它应该能够感知到并理解发生于环境之中的人的声音，能以声音传递必要的信息。;语音识别的回顾语音识别与合成作为一个独立的研究领域已经有近五六十年历史。语音识别作为一个跨学科的技术，是在人们几个世纪以来对语言学、声学、生理学及自动机理论研究的基础上发展而来的。但这些理论实现起来仍然面临着以下两大困难：不同的说话者有不同的说话方式；在含噪音环境中引入的噪声在很大程度上干扰了原始语音信号；即使对同样一个说话者，随着时间不同，相同词的发音也会不同。由于这些困难，人们就不得不对每一种识别方法加上许多具体的限制，而这些限制也造成了至今仍然很少有实用化的、真正意义上的语音识别系统问世的局面。 ;最初的研究都是针对孤立词进行的，就词汇量而言，早先出现的许多系统都是中、小词表的语音识别系统。70年代初，著名的DARPA语音理解计划开始实施，其目标是在研制出能在“理解”连续口语句子、词汇量为1000的基础上，利用人工智能与计算机语言学等知识，把各种类型的知识源如词法、句法、语义等结合到语音识别系统中，即使低层声学识别率很低，高层处理仍能给出较高的识别率。但是，通过深入的研究，人们得到一个经验：理想的语音识别系统中，高层处理固然有益，但低层声学处理也是非常重要的。另—个研究方向是话音“理解”，这也许对于一个VR系统来说更为重要。在这种系统中，并不关心发音中的每一个词。关心的是整个句子的正确意义。通常可以来用关键词检出的方法来实现这样的系统。这种系统可以在噪声环境下正常工作，而且话者是不限定。 ;动态时间规整DTW 动态时间规整DTW(dynamic time warping)曾经是语音识别的一种主流方法。其思想是：由于语音信号是一种具有相当大随机性的信号，即使相同说话者对相同的词，每一次发音的结果都是不同的，也不可能具有完全相同的时间长度。因此在与已存储模型相匹配时，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模板特征对正。用时间规整手段对正是一种非常有力的措施，对提高系统的识别精度非常有效。动态时间规整DTW是一个典型的优化问题，它用满足一定条件的的时间规整函数W(n)描述输入模板和参考模板的时间对应关系，求解两模板匹配时累计距离最小所对应的规整函数。;隐Markov模型HMM Markov链在许多年以前就为数学家和工程师们知道了，但是将其成功地应用于语音识别只是近几十年的事情。在对信号的建模问题上，HMM既解决了用短时模型描述平稳段的问题，又解决了每一个短时平稳段是如何转变到下一个短时平稳段的问题，取得了巨大的进展。语音是一随机过程，每次发音时，我们可以得到一个帧矢量序列（称为发现序列）X：X={x1，x2，…，xT} 对同一词的不同发音，X的帧数T和xi都在变化。可以看作是该随机过程模型的多次实现。从语音产生过程来看，可以想象为声道沿不同位置转移时，每一位置产生一随机声学输出。可把各声道位置想象为各个状态Si，而发现序列可想象为在该状态的一个随机输出Xi。这样，语音的随机过程可看作由两个随机过程构成：状态转移的随机过程；输出的随机过程。 ;连续语音识别用于孤立词识别的各种技术，可以在很大的程度上推广到连续语音识别的情况。但是，连续语音有许多特殊问题，使它与孤立词的情况有很大差别。要建立一个大词表、连续语音识别系统，至少应考虑如下几个问题：识别基元的选择与切分对整个句子一下子进行识别显然是不可能的，因此，必须选择恰当的识别基元。这种选择应考虑用尽量少且又易于从连续语流中切分出来的基元，如选择音节、半音节、音素、词等作为基元。协同发音现象与上下文连续语音情况下协同发音现象比较普遍，使得具体的词受上下文环境的影响较大。另外，在连续语音情况下，词法、句法、语义等，对识别也是极其重要的。训练方法识别训练的主要问题是如何减少训练时间或用户配合的程度。一般的可以用自适应或学习的方法部分地解决这个问题。 ;电话语音识别电话通道实际可以看作是一种特殊的噪声源。解决噪声问题是非常重要的，随着各种语音识别技术的发展，当语音识别由实验室走向实际应用时，如何使系