- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉语语音识别技术的研究与发展
作者:张 宜
(广西广播电视大学计算中心广西南宁530022)[摘要]本文通过对我国汉语语音识别技术研究的历程和研究方法进行分析概括,详细论述了汉语语音识别系统的构成及其所涉及的识别基元选取、特征参数提取、模式识别方法等关键技术,指出了目前汉语语音识别技术研究所面临的问题及对策。1概述 语音是人类交流和交换信息中最便捷的工具和最重要的媒体,因此,语音识别在多媒体技术中有着及其重要的位置。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,在近半个多世纪以来一直是人们研究的热点,其研究成果已广泛应用于人类社会的各个领域。与图像识别技术相比,语音识别有着许多独特的优势:携带信息量大、处理响应快、无需专门训练、周边设备简单、应用领域广阔、经济效益可观等等。也正因为如此,汉语作为全世界近1/4人口的母语,多年来一直受到国内外的广泛关注,我国汉语语音识别技术的研究也一直在紧跟国际语音识别技术研究的步伐稳步发展,其研究历程可分为以下三个阶段: 二十一世纪70年代至80年代中期的引进、移植阶段。这时期,我国汉语语音识别技术的研究起步不久,因此以吸收和引进国外理论和技术为主,通过对汉语语音识别的实验研究和方法改进,成功的进行了以孤立字小字表、特定人、实验室环境条件为主的汉语语音识别研究,为汉语语音识别技术的研究和发展奠定了基础。 80年代~90年代初期的自成体系阶段。该时期在国家863《智能计算机主题》专家组对汉语语音识别研究立项的推动下,在基础理论研究和实现技术上有较大的进展,逐渐走出一条适合汉语特点的研究路子,将汉语语音识别技术的研究拓展到连续语音、中大字表、非特定人语音识别及说话人识别等领域,逐渐形成自己的研究体系,缩小了与国际研究水平的差距。 90年代中期以来的成熟阶段。该阶段在国家863《智能计算机主题》专家组每一至二年举行一次的全国性语音识别系统测试活动的推动下,使汉语语音识别技术在细化模型的设计、参数提取和优化、以及系统的适应能力上取得了一些关键性的突破,汉语语音识别技术进一步成熟,并开始向市场提供应用产品。目前,我国对大词汇量连续语音识别系统的研究已经接近国外最高水平,其典型代表是清华大学开发的连续语音识别系统THEESP,该系统对汉字的识别率达到98.7%,拼音自选识别率达到79.4%,句子识别率约为62.5%。 下面,根据该领域的研究成果,对汉语语音识别系统的构成和所涉及的关键技术,以及所面临的主要问题进行探讨。 2汉语语音识别系统的基本构成及工作原理 汉语语音识别与其它语言的语音识别一样,实质上属于一种模式识别,其系统的构成如图1所示。
其中,预处理部分包括语音信号的采样、反混叠滤波、自动增益控制,去除声门激励和口唇辐射的影响以及设备、环境引起的噪声影响等等,并涉及语音识别基元的选择和端点检测等关键性问题;特征提取部分的作用是从语音信号波形中提取一组或几组能够描述语音信号特征的参数,如平均能量、过零数或平均过零数,共振峰、倒谱、线性预测系数,以及音长、音调、声调等超音段信息函数等等,特征提取是模式识别的关键;训练部分和模式库部分是一个不可分割的整体,训练是建立模式库的必备过程,在识别之前进行,通常是让不同类型的讲话人多次重复相同的语音发音,系统从这些原始的语音样本中去除冗余,保留关键数据并按一定规则对数据加以分类,从而形成作为语音识别判断标准的语意等。模式库的内容除现场训练提取以外,通常还包括建立在以往或经验基础上的语音专家知识库信息;模式匹配部分是整个系统的核心,其作用是根据语音和不同的层面按照相应的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的测度,从而形成系统认为最佳的识别输出。 3汉语语音识别中的关键技术 3.1语音识别基元的选取 作为人类唯一的会意文字,汉语有着与其它语言孑然不同的特色:以字为最小语音单位,而且每一个汉字的发音对应于一个音节,在常用的6000多个汉字中,全部汉字音节只有1281个,如果不考虑声调(四声:阴平、阳平、上声、去声),真正独立的汉语无调单音节字只有412个。由于音节不仅是听觉上能够自然辨别出来的最小语音单位,也是音义结合的基本语言单位,因此,在汉语语音识别中的基元选择,音节无疑最佳方案,这也是汉语孤立词和小词汇量汉语语音识别系统研究一直沿用的方法。 作为大词汇连续汉语语音识别系统,由于字与字和词与词之间没有明显的停顿,沿用全音节作为语音识别基元的传统方法,其识别率受到很大限制。因此,为了更好地描述汉语连续语音中的细节,提高识别率,作为语音识别的基元需要选择比音节更小的声母、韵母等半音节基元(共61个)和
文档评论(0)