- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(语种辨识
1语言辨识的基本概念
自动语言辨识(又称语种识别),是计算机分析处理一个语音片段以判别其所属语种的技术。随着当前全球合作的增长,各种余元之间的通信要求增加,这就对自动语言识别提出新的挑战,在机械能够懂得语言含义之前,必须辨别使用了哪种语言。自动语言辨识的任务在于快速准确的辨识出所使用的语言,目前它已经成为通信和信息领域一个新的学科增长点。自动语言辨识技术的学术特点在于它横跨技术的融合。对它的研究,不仅需要掌握信息理论和技术,而且需要具有多种信息处理的手段和方法。众所周知,语音中包含着多种信息,从语音中提取不同的信息进行处理也就形成了不同语言处理方法。从内容上分,语音中包含着所属语言种类的信息、说话内容的语义信息和说话人个体特征,因此从识别的角度来说,我们可以利用从语音中提取的这些信息进行识别,语音信息的识别可以分为语音识别、语言辨识和说话人识别。语音识别中要提取出包含在语音信号中的字词意思和言语内容,说话人识别则是从语音信号中获取说话人的身份,语言辨识是从语音信号中提取出包含的语言的种类(或方言的种类)。与语音识别和说话人识别不同的是,语言辨识利用的是语音信号中的语言学信息,而不考虑语音信号中的字词意思,不考虑说话人的个性。
语种识别在信息检索和军事领域都有很重要的应用,包括自动转换服务多语言信息补偿等。在信息服务方面, 很多信息查询中可提供多语言服务, 但一开始必须用多种语言提示用户选择用户语言。语种辨识系统必须预先区分用户的语言种类, 以提供不同语言种类的服务。这类典型服务的例子包括旅游信息、应急服务、以及购物和银行、股票交易。例如 ATT 向处理 911 紧急呼救的社会机构和警察局推出语言热线服务。图 1 说明了两个讲不同语言的人是如何通过一个多语言话音系统进行交流。自动语言辨识技术还能够用于多语言机器翻译系统的前端处理, 当对大量录音资料进行翻译分配时, 需要预先判定每一段语音的语言。随着信息时代的到来以及国际因特网的发展, 语言辨识越来越显示出其应用价值, 国际上也一直进行着卓有成效的研究和系统开发。
与语音处理的其他领域相比, 自动语种识别是一个相对较新的领域。尽管在某些方面, 其类似于自动语音识别、说话人识别和声调检测, 但所有这些任务之间的差别很大。理论上来讲, 不同语言之间的差别是多方面的, 而且差别较大。尽管在各种层次上都可以找到这些差别( 如, 音素目录, 音素的声学实现, 词汇, 音位结构规律性和词法等等) , 由于在任何层次上都不存在可靠的算法, 因此可靠的语言辨识仍旧是一个难题。
自动语言辨识的研究可以追溯到20世纪70年代,与语音识别的其它方向相比较,自动
语言辨识进展较为缓慢,在1993年之前的20多年里用英语发表的文献中,只能找到14篇有关自动语言辨识的研究。这些研究的语音数据的种类覆盖了从文本的标音法和实验室语音到电话和无线电广播语音的范围。语言的种类从3种发展到20种。语言辨识的方法使用过每种语言的“参考语音”、基于音段和音节的马尔可夫模型、基音轮廓、共振峰矢量、声学特征、方言性的音素和韵律特征、及其原始的语音声波特征。使用过的分类方法包括HMM、专家系统、聚类算法、二次分类、以及人工神经网络。俄勒冈科学技术研究院的多语种电话语音数据库(简称OGI-TS)是为进行自动语言辨识研究专门设计的。目前它是由11种语言的发音流畅的、固定词汇的语音数据所组成。这些语言是英语(English)、波斯语(Farsi)、法语(French)、德语(German)、北印度语(Hindi)、日语(Japanese)、朝鲜语(Korean)、汉语(Chinese)、西班牙语(Spanish)、泰米尔语(Tamil)和越南语(Vietnamese)。这些发音由每种语言的90个持母语的人在实际电话线路上产生。发音的时长从1秒到50秒长短不等,平均13.4秒。 OGI-TS的出现重新激发了人们对自动语言辨识研究的兴趣。1993年美国国家标准技术研究所(NIST)将OGI-TS设计为自动语言辨识评估的标准,自动语言辨识技术的研究和应用在学术界和企业界开始受到关注,一些重要的有关语音的国际学术会议上相关的学术论文数量迅速增加,并且这些会议上还设立了交流语言辨识研究的分会场。同时,在开发相关技术产品方面开展了一些国际研究项目,国际标准化组织也就该技术研究开展了评估工作。 进入90年代中期,麻省理工的Lincoln实验室,美国电话电报公司(ATT),俄勒冈科学技术研究院,美国国际电话电信公司(ITT),美国Rensselaer理工研究所,Locakheed- Sanders工程公司等八个开展语言辨识研究的基地也相继发布了他们的研究成果。
3语言辨识的原理
自动语言辨
文档评论(0)