语音识别文献翻译.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音识别文献翻译

语音识别 在计算机技术中,语音识别是指为了达到说话者发音而由计算机生成的功能,利用计算机识别人类语音的技术。(例如,抄录讲话的文本,数据项;经营电子和机械设备;电话的自动化处理) ,是通过所谓的自然语言处理的计算机语音技术一个重要元素古老的书写系统,要回溯到苏美尔人的六千年前首先,演讲不是简单的口语文本——同样的道理,戴维斯很难捕捉到一个note-for-note曲作为乐谱。人类所理解的词、短语或句子离散与清晰的边界实际上是将连续的流,而不是听来:I went to the store yesterday昨天我去商店。单词也可以混合,用Whadd ayawa吗?代表着你想要做什么第二,没有一对一的声音和字母之间的相关性。在英语,有略多于5个元音字母——a,e,i,o,u,有时y和w。有超过二十多个不同的元音, 虽然,精确统计可以取决于演讲者的口音。相反的问题也会发生,在那里一个以上的信能再现某一特定的声音。此外,说同一语言的人使用相同的声音,即语言不同,他们的声音语音或模式的组织有不同的口音“水”这个词,wadder可以显著watterwoader wattah等等。每个人都有独特的——男人说话的时候,一般开的最低音妇女和儿童具有更高的音高(虽然每个有广泛的变异和重叠)。发音的声音当一个人感冒考虑发音变化。最后,考虑不是所有的都有意义的声音但用作话语传达说话人的微妙感情或动机的信息:哦,就像,你知道,好的。也有一些听起来都不认为是字是一项词性的呃,嗯,嗯。嗽、打喷嚏谈笑风生呜咽,甚至打嗝的可以成为。与环境自身的噪声语音识别是困难的。 技术 当今的语音识别技术着力于通过共振和光谱分析来对我们的声音产生的声波进行数学分析。计算机系统第一次通过数字模拟转换器记录了经过麦克风传来的声波。那种当我们说一个词的时候所产生的模拟的或者持续的声波被分割成了一些时间碎片,然后这些碎片按照它们的振幅水平被度量,振幅是指从一个说话者口中产生的空气压力。为了测量振幅水平并且将声波转换成为数字格式,现在的语音识别研究普遍采用了奈奎斯特—香农定理。 奈奎斯特—香农定理 奈奎斯特—香农定理是在1928年研究发现的,该定理表明一个给定的模拟频率能够由一个是原始模拟频率两倍的数字频率重建出来。奈奎斯特证明了该规律的真实性,因为一个声波频率必须由于压缩和疏散各取样一次。例如,一个20kHz的音频信号能准确地被表示为一个44.1kHz的数字信号样本。 工作原理 语音识别系统通常使用统计模型来解释方言,口音,背景噪音和发音的不同。这些模型已经发展到这种程度,在一个安静的环境中准确率可以达到90℅以上。然而每一个公司都有它们自己关于输入处理的专项技术,存在着4种关于语音如何被识别的共同主题。 1.基于模板:这种模型应用了内置于程序中的语言数据库。当把语音输入到系统中后,识别器利用其与数据库的匹配进行工作。为了做到这一点,该程序使用了动态规划算法。这种语音识别技术的衰落是因为这个识别模型不足以完成对不在数据库中的语音类型的理解。 2.基于知识:基于知识的语音识别技术分析语音的声谱图以收集数据和制定规则,这些数据和规则回馈与操作者的命令和语句等值的信息。这种识别技术不适用关于语音的语言和语音知识。 3.随机:随机语音识别技术在今天最为常见。随机语音分析方法利用随机概率模型来模拟语音输入的不确定性。最流行的随机概率模型是HMM(隐马尔科夫模型)。如下所示: Yt是观察到的声学数据,p(W)是一个特定词串的先天随机概率,p(Yt∣W)是在给定的声学模型中被观察到的声学数据的概率,W是假设的词汇串。在分析语音输入的时候,HMM被证明是成功的,因为该算法考虑到了语言模型,人类说话的声音模型和已知的所有词汇。 1.联结:在联结主义语音识别技术当中,关于语音输入的知识是这样获得的,即分析输入的信号并从简单的多层感知器中用多种方式将其储存在延时神经网络中。 如前所述,利用随机模型来分析语言的程序是今天最流行的,并且证明是最成功的。 识别指令 当今语音识别软件最重要的目标是识别指令。这增强了语音软件的功能。例如微软Sync被装进了许多新型汽车里面,据说这可以让使用者进入汽车的所有电子配件和免提。这个软件是成功的。它询问使用者一系列问题并利用常用词汇的发音来得出语音恒量。这些常量变成了语音识别技术算法中的一环,这样以后就能够提供更好的语音识别。当今的技术评论家认为这项技术自20世纪90年代开始已经有了很大进步,但是在短时间内不会取代手控装置。 听写 关于指令识别的第二点是听写。就像接下来讨论的那样,今天的市场看重听写软件在转述医疗记录、学生试卷和作为一种更

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档