- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章 语音识别系统
1.1 语音识别系统历史简介
早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的Radio Rex玩具狗可能是最早的语。
音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由ATT贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间弯折Dynamic Time Warp技术。语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。信号处理模块提供了对输入信号的预处理,也就是说,提供了从采集的语音信号(记为S)到 特征序列O的映射。
声学模型本身定义了一些更具推广性的声学建模单元,并且提供了在给定输入特征下,估计P(O | uk)的方法。为了将声学模型建模单元串映射到符号集,就需要发音词典发挥作用。它实际上定义了映射的映射。为了表示方便,也可以定义一个由到U的全集的笛卡尔积,而发音词典则是这个笛卡尔积的一个子集。并且有:最后,语言模型则提供了P(W)。这样,基本公式就可以更加具体的写成:对于解码器来所,就是要在由,,ui以及时间标度t张成的搜索空间中,找到上式所指明的W.语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
1.2自动语音识别的应用
自动语音识别(Automatic Speech Recognition 简称“ASR“)技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。 自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。语音识别技术适用于家用电器和电子设备,如电视、计算机、汽车、音响、冷气等的声控遥控器,电话、手机或PDA上的声控人名拨号、数字录音机的声控语音检索标签、儿童玩具的声控等;也可用于个人、呼叫中心,以及电信级应用的信息查询与服务等领域。
1.3 语音识别系统的结构
一个完整的基于统计的语音识别系统可大致分为二个部分:
语音信号预处理与特征提取;
声学模型与模式匹配;
1.3.1 语音信号预处理与特征提取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。
线
您可能关注的文档
- 稽核监控系统功能描述.doc
- 鹤峰县课内比教学课外访万家.doc
- 黑河市群众诉求调处中心公开招聘人员考试.doc
- 黑龙江2011年度专业技术人员继续教育知识更新专业课程作业二.doc
- 吉林省吉林市高三上学期第三次调研测试文综地理试题Word版含解析.doc
- 吉林省通化市外国语学校2017-2018学年八年级英语下学期期中测试题-人教新目标版.doc
- 黑龙江省哈尔滨市第六中学2012届高三第一次模拟考试-语文.doc
- 吉林省冶金等工贸企业安全生产标准化二级评审.doc
- 吉林省有机食用菌菌种标准化.doc
- 黑龙江省哈尔滨市届高三上学期期末考试试卷语文-Word版含答案.doc
- 高校共青团_四维一体_实践育人体系的研究与建构_田炜明_20250120_125934.docx
- 2010-2023历年河北省衡水市冀州中学高三上学期第一次月考政治试卷(带解析)版.docx
- [北京]2025年北京市大兴区教育委员会所属事业单位面向应届生招聘教师150人笔试历年参考题库附带答案详解.docx
- [南通]2024年江苏南通市崇川区区属国有公司招聘工作人员16人笔试历年参考题库附带答案详解.docx
- [南京]江苏南京市公安局六合分局警务辅助人员招聘25人笔试历年参考题库附带答案详解.docx
- [天津]2025年天津市医药科学研究所(天津市医药与健康研究中心)招聘笔试历年参考题库附带答案详解.docx
- 2010-2023历年江苏省高三化学一轮过关测试(7).docx
- [大连]2025年辽宁大连市甘井子区教育系统自主招聘应届生89人笔试历年参考题库附带答案详解.docx
- [内江]2024下半年四川内江市公安局招聘警务辅助人员41人笔试历年参考题库附带答案详解.docx
- [唐山]河北唐山市公安局机场治安分局招聘警务辅助人员笔试历年参考题库附带答案详解.docx
最近下载
- lng接收站工艺培训计划.docx VIP
- 五懂五会五能员工必备安全技能手册.pdf
- 化妆品行业化妆品生产厂复工安全培训.pptx
- 2024年10月13日云南省税务系统遴选笔试真题及答案解析.doc VIP
- 2023年中考数学几何模型——动点最值之瓜豆模型(讲+练)(原卷版).pdf VIP
- (新统编版)语文四年级下册 第一单元集体备课指导 课件.pptx
- 四川省2023-2024学年 职教高考联合体第4次模拟考试-智能制造类应知+应会(含答案).pdf VIP
- 1危险化学品磷酸(正磷酸)的危险、有害特性表MSDS.docx
- 2《陈涉世家》精省公开课一等奖全国示范课微课金奖PPT课件.pptx
- 攀枝花学院2020-2021学年第1学期《高等数学(上)》期末考试试卷(A卷)及标准答案.pdf
文档评论(0)