- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
7.1 概述
7.2 语音识别原理和识别系统的组成
7.3 孤立字(词)识别系统
7.4 连续语音识别系统
7.5 连续语音识别系统的性能测评
语音识别(Speech Recognition):主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容。从而根据其信息,执行人的各种意图。
语音识别的应用:语音识别技术根据其属性,基本功能可归为两大类:
根据人本身的声纹特征来进行身份认证。
另一类是根据人发出特定的语音指令来进行命令控制。
由此引出的应用市场基本可以包括这几个方面:桌面应用、嵌入式应用、电话系统、Web应用以及特殊应用领域等。
如:桌面应用——即语音识别技术集成在PC机上的应用,不仅可以用语音识别来进行身份认证和编辑文本,而且可以通过听取和响应用户讲述的命令来运行程序并与操作系统实现交互。跨国IT巨头如微软已介入该领域,且可以充分利用其成熟产品的协同性来进行市场渗透,如Windows XP、Vista及Office 2007等都内嵌了语音识别功能,具有垄断优势。
7.1 概述
Siri是苹果公司在其产品iphone 4S上应用的一项语音控制功能。Siri可以令iPhone4S变身为一台智能化机器人。
iphone 4S ——Siri
实现一种人机互动
讯飞口讯
Symbian版:2011-10-28更新,讯飞口讯1.0.1121版本发布,一款Symbian平台 的语音写短信软件,语音输入短信收件人及内容,并支持短信自动朗读。
iPhone版:2011-10-27更新,讯飞口讯1.0.1037版本发布,新增语音输入发布 微博功能。
Android版:2011-10-28更新,讯飞语音输入法2.0.1094版本发布,增加拼音整句输入功能,并优化部分细节问题。
按识别对象分类
孤立词:单字、单词或短语为发音单位,独立词条。要求输入每个词后要停顿。如:利用语音进行家电控制语音识别系统,开、关,提高音量等。
连接词: 十个数字连接而成的多位数字或连接词条。要求对每个词都清楚发音,一些连音现象开始出现。在电话、数据库查询和控制系统中用途广泛。目前,连续语音识别技术已渐趋成熟,是研究和实用系统的主流。
连续语音:最自然的说话方式,是自然流利的连续语音输入,大量连音和变音出现。比较复杂、成本也高。
语音理解:在识别的基础上,用语言学知识来推断语音的含义。
会话系统:会话语言,不仅利用语法信息、而且要利用谈话话题、上下文文脉等对话环境的信息.
语音识别系统分类
按词汇量大小分类
词汇量:小 大
小词汇:1-20个词汇,如利用语音进行电话拨号
中词汇:20-1000个词汇,自动订飞机票
大词汇:1000个以上,把口述的一篇报告转换成文本
按说话人的范围分类
说话人范围:小 大
单个特定讲话人:简单、识别率高,商品化的多属此种。
有限多讲话人: 通用性好、应用广、难度大,不易得到
讲话者无关: 高的识别率。
语音识别系统分类
模板匹配法
训练阶段:用户将词汇表中的每一个词依次说一遍,并且将其特征矢量作为模板存入模板库
识别阶段:将输入语音的特征矢量序列与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
由于语音信号有较大的随机性,即使是同一个人在不同时刻的同一句话发同的一个音,也不可能具有完全相同的时间长度,因此时间伸缩处理必不可少——板仓将动态规划算法的概念用于解决孤立词识别是说话速度不均匀的难题,提出著名的动态时间伸缩算法——动态时间规整算法(DTW)
用DTW算法进行模板匹配,保证两模板间存在最大声学相似性。
语音识别方法
随机模型法:是目前语音识别主流的研究途径
代表:隐马尔可夫模型(HMM):使用HMM的概率参数来对似然函数进行估计与判决,从而得到结果。
语音信号可以看成是一种信号过程,在足够短的时间段上的信号特性近似于稳定,而总的过程可看成是依次从相对稳定的某一特性过渡到另一特性。HMM则用概率统计的方法来描述这样一种实变的过程,在该模型中,Markov 链中的一个状态转移到另一状态取决于该状态的转移概率(状态生成概率)
语音识别方法
概率语法分析法:用于大长度范围的连续语音识别
将“区别性特征”和形式语法约束的知识来对似然函数进行估计与判决。
语音识别技术面临的困难及挑战
连续语音中因素、音节或单词之间的调音结合引起的音变,使得基元模型边界不明确;
建立一个理解语法和语义的规则或专家系统
语音信息的变化很大
语音具有模糊性
单个字母及单个词语发音时语音特性受上下文影响
环境的噪声和干扰对语音识别影响严重
语音识别方法
语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。语音识别系统本质上是一种模式识别系统
您可能关注的文档
最近下载
- DB11 T 527-2021 配电室安全管理规范.docx
- 国开2020年秋《计算机绘图(本)》形考任务检测1-6.docx
- 全国班主任比赛一等奖《班主任经验交流》课件模板.pptx
- 如何做好妇产科科室管理.pptx
- 《新冠病毒核酸检测技术》课件.ppt VIP
- 高中语文2025届高考名篇名句默写模考题练习(共九组,附参考答案).doc
- 《压力性损伤》课件.pptx VIP
- 2025年高级起重装卸机械操作工(叉车司机)职业技能鉴定理论考试题库资料(浓缩300题).pdf
- 脑血管疾病患者的护理:从临床到护理的全流程管理.pptx VIP
- 2025年中级起重装卸机械操作工(叉车司机)职业技能鉴定理论考试题库资料(含答案).pdf
文档评论(0)