07基于内容的音频检索2.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
07基于内容的音频检索2.ppt

基于内容的音频检索 河南师范大学 计算机学院 第二讲 5.4 语音识别和检索 语音索引和检索的基本方法 运用语音识别技术把语音信号转化为文本,然后应用IR技术进行索引和检索. 除了实际的发生词汇之外,包含在语音中的其他信息,如发声者的身份和发声者的情绪等,都可用于增强语音索引和检索. 下面分别介绍语音识别和发声者识别技术 5.4.1 语音识别 语音识别 就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。 语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等学科紧密相连。 语音识别技术主要包含以下几个方面: 语音控制、电子发声、连续语音识别、非连续语音识别和语音学习。目前主要是在支持中英文,实现中英文混合识别问题上,存在一些障碍。同时在识别大量词汇和个别发音方面还很难做到准确。 语音识别的发展历程: 语音识别技术萌芽于50年代机器翻译研究时期,到60年代末70年代初,此课题的研究才取得了实质性的进展,一方面是由于计算机的计算能力有了迅速的提高,能够实现复杂的软、硬件环境;另一方面,数字信号处理理论和算法在当时有了蓬勃发展。 80年代新一代智能计算机的研制,以及模式识别、自然语言理解等技术的成熟,为语音识别技术的突破打下了基础。 90年代一些基于非特定人连续语音识别的语音识别技术产品开始出现,较有影响的是Dragon系统公司的Naturally Speaking、IBM的Via Voice、Microsoft的Voice Express等。 21世纪初期的成果主要集中于实现计算机的同声传译系统以及多环境背景下的英语语音识别技术。 计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。 一个完整的语音识别系统可大致分为三部分: (1)语音特征提取:目的是从语音波形中提取随时间变化的语音特征序列. (2)声学模型与模式匹配(识别算法):声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型通常由获取的语音特征通过训练产生,目的是为每个发音建立发音模板。 在识别时将未知的语音特征同声学模型(模式)进行匹配与比较,计算未知语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大影响。 (3)语义理解:计算机对识别结果进行语法、语义分析。明白语言的意义以便作出相应的反应。通常是通过语言模型来实现。 目前市场上的语音识别产品基本可分为:   特定人/非特定人:是按照声学模型建立的方式来划分。特定人识别的声学模型是针对某一特定用户训练的。一般来说用户需要先训练系统,然后才能识别该用户的发音。而非特定人识别的声学模型是针对某一种特定的语言来训练的,发音人不需要训练既可使用。虽然在建立模型时需要大量的语料,对用户来说却提供了更大方便,他们甚至不需要了解该过程。   嵌入式/服务器模式:嵌入式是将语言识别软件及模型,写在设备(如手机)的存储器里,识别过程在终端完成。在服务器模式,终端只负责收集和传导语音信号,由服务器负责完成识别。因此,对于大规模,多用户和有大量识别需求的系统,服务器模式提供了有效的方式。 目前运营商和企业用户的需求多数适合采用非特定人服务器模式的服务 ASR ASR,英文的全称是(Automated Speech Recognition),即自动语音识别技术,它是一种将人的语音转换为文本,从而可以采用文本检索方法进行检索的技术。 ASR的基本原理是通过比较用户的发音与计算机中的音素、词或短语的模型、模版来完成的,它只能从现有的模型中找出一个最近的模型或序列来作为识别结果。但由于受生理、心理等条件影响,人的发音在长度、韵律等方面会不断变化,另一个意思的句子可以有成千上万种的表达方法,所以这种匹配不但非常困难,而且不可能是非常精确的,下图表示了一个简化的语音识别原理图: 语音识别原理图 ASR分两个阶段进行运作: 1.训练阶段 在训练阶段中,抽取每个语音单位的特征并存放在系统中. 2.模式匹配阶段 在识别阶段中,抽取输入语音单位的特征并与每个存储特征进行比较,具有最佳匹配特征的语音单位用作识别单位. 使用音素作为语音单位,如果每个音素独立于发音者、环境和上下文,可由特征向量唯一确定,则语音识别将变得十分简单。 然而由于下面的因素语音识别变得十分复杂: 1.不同说话人发出的音素或同一说话人在不同时可发出的音素在周期、幅值和频率成分上产生了不同的特征。 2.背景或环境噪声可加大上述区别。 3.正常的语音是连续的,而且很难分离成

文档评论(0)

rewfdgd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档