- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言识别技术现状及应用
语言识别技术现状及应用 摘 要 如同人与人之间的相互对话那样,用语音对设备、机械等发出控制命令和信息,这不仅对于从事计算机的工作者,而且对于普通的人们,也曾是一个令人神往的梦想。近些年来,由于集成电路技术、数字信号处理技术和图形识别等技术的不断取得进展,语音识别技术也在长足地向前发展。如今,以声音为输入信号的自动控制系统已在不少场合开始得到应用。 【关键词】特点 方法 现状 应用 1 语音识别的优点和方法 直接用语音作为输入控制信号方法具有许多优点:对人来说,作为最自然的输入控制信号的手段,不必进行特殊的训练;信息的产生速度较快,一般为键盘输入方法的2~4倍;操作者在用眼和手共同进行其它作业的同时能输入信息;操作者能边走动边输入信息;能远距离用电话输入;可以省略键盘、发光字母读出器等中间输入设备;即使在某些紧急的场合,也能在转瞬之间投入使用。 说明语音识别的方法,应首先从语音的分析谈起。语音大体上包含着两种信息:即具有一定含义的信息和发音者固有的信息。前者的识别处理称为:“狭义声音识别”,而后者的识别处理则叫作“发言人辨认”。 在声音频谱中,能量集中的频带称为共振峰。共振峰频率随着发音者性别及其他条件的不同而变化。分析输入的语音,找出其特征是语音识别的第一步。 识别输入的语言是语音识别的下一步。对此在“单词识别”和“单音识别”两种方式。前者是在识别装置内设有以单词为单位的模拟型词汇标准,进而选出与输入语音最类似模式的方式。后者的方式是在识别装置内设有以此单词低次的单音、音节为单位的模拟型标准,将输入的语音按单音的不同进行变换,再进行单词的识别。 单词(单间)与单词(单音)之间是否有间隔,这是语音识别技术要考虑的一个重要问题。“离散话音”指的是在单词间有200毫秒左右时间间隔的输入方法。还有所谓“连续会话”方式,其作为识别对象的是多个单词连续一气讲出的语句,相应的识别处理将较复杂一些。 另外,讲话人是否受到限制的问题,对语音识别装置来说,在技术上和造价方面都是必须考虑的。所谓“特别指定说话人”识别,就是将识别对象的全部单词,经数次练习预先进行话音输入,使之在装置中存储发音人个人所特有的单词模式,使用时将输入的语音与比单词模式进行比较而加以识别的方式。这种方式以比较简单的识别处理就能得到较高的识别率。还有“可更换发音人”的识别方式,它是预先用多人的语音信号瞬时值作成标准模式,这样在更换了发音人、口音有所差异的情况下,识别装置也能进行正确的识别。 语音识别的最高发展阶段是识别人们以普通速度讲的会话语言。众所周知,一般人的会话中包含着无意义用语(口头语),因此要一字一句地准确识别人的普通会话语言是极难的。作为解决方法,产生了被称之为“语音理解”的新概念:就是将输入的语音中所包含的冗余信息(方言、单调等)进行引用,作为理解输入信息内容的近似方法,而不要求一定将输入语音逐一正确地加以识别,这是与其它的语音识别方式根本不同的。采用此种识别方式的语音识别装置作文章理解系统,它在声音打字机和口语自动翻译等方面可得广泛的应用。 2 语音识别技术的现状 按功能分类,语音识别装置有数据输入型、自然口语输入型和发音人辨认三种。 2.1 数据输入型 语音识别装置首先在美国开始实用并最早出现商用产品的,现在实用的语音识别主要采用的还是对专人的并基于以单词为单位的离散信息的识别方式,识别率达99%以上,适用于识别语句较少而且在较肃静的室内场合使用。作为一般用户为对象的(例如:旅客问询)系统,则要求使用“可更换发音人”方式的语音识别装置。 2.2 自然口语输入型 对于自然口语输入型的语音识别,美国国防部作为ARPA计划,进行了大量的研究工作。在日本也以电子技术综合研究所为中心,作为图形识别研究大型计划的一环进行了研究。目前已有声音打字机那样的应用。 2.3 发音人辨认 “发音人辨认”是语音识别最完善的方式。由于不同的发音人在发同一语音时,可以产生有显著差别的声学图案,这种差别便体现了个人的特征。人的听觉区别个人特征的能力是很强的。目前用电子设备辨认发音人常用的简便方法是:检出语音基频随时间变化的图形作为辨认的依据。它的应用前景是相当广泛的,比如用存储某人的语音代替签字(有人称之为“声纹”)进而利用电话等实现远距离的身分确认将成可能。 3 语音识别在铁路系统的应用 语音识别装置按应用分类:有控制、指令型,利用电话(包括无线电话)型,OA(事务自动化)应用型和“发音人辨认”型等。 3.1 有控制、指令型 在控制、指令型的应用方面,采用“专人”语音识别装置可以进行选排调车进路、调车机车的无人驾驶、行包自动分拣等;采用“可更换发音人”的语音识别装置可以实现自动售票、行包受理和
文档评论(0)