语音识别研究的背景意义及现状.doc

下载文档

134
0
约3.23千字
约 3页
2020-04-10 发布于广东
举报
版权申诉
保障服务

语音识别研究的背景意义及现状.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语音识别研究的背景意义及现状研究的背景及意义自从人类可以制造和使用各种机器以来，人们就有一个理想，那就是让各种机器能听懂人类的语言并能按人的口头命令来行动，从而实现人机的语言交流。随着科学技术的不断发展，语音识别(Speech Recognition)技术的出现，使人类的这一理想得以实现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术的结合，使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。当今，语音识别产品在人机认交互应用中己经占到越来越大的比例。音乐就是一种 HYPERLINK /view/576.htm \t _blank 艺术。通常可以解释为一系列对于有声、无声具有时间性的组织，并含有不同音阶的节奏、 HYPERLINK /view/21803.htm \t _blank 旋律及和声。音乐与人的生活情趣、审美情趣、言语、行为、人际关系等等，有一定的关联。音乐是人们抒发感情、表现感情、寄托感情的艺术，不论是唱、奏或听，都内涵着关联人们千丝万缕情感的因素。特别对人的心理，会起着不能用言语所能形容的影响作用。音乐可以通过几种途径来体验，而音乐播放器是现代生活中最便捷,最实用的一种。现如今社会在飞速发展，人们的生活节奏也在不断加快，工作压力也在日益增大，致使越来越多的人选择在闲暇时间放松自己。而听音乐就成了人们缓解生活压力的第一选择，医学表明音乐不仅可以对人们紧张的心情带来放松，还能有效的缓解高血压对心血管造成的压力。因此音乐播放器已经成为人们日常生活中至关重要的物品。然而可惜的是，传统的音乐播放器通常上是通过两种方式实现人们对播放器的控制的：一是按键式控制（其中也包括线控式），通过直接按键改变电平发出指令；二是通过远程控制，通过红外线或者蓝牙等对播放器发布命令。这对于疲劳中的人们或者残障人士来说是不方便的。为了减少手动操作的繁琐，此次设计专门致力于研究一种方案通过语音控制来实现对音乐播放器的控制，使其更加方便、更加人性化，实现音乐播放器的全自动语音控制。这个设计不仅是为了解决人们日常使用传统音乐播放器不方便的烦恼，而且是为了研究语音识别技术在单片机中的应用，特别是在SPCE061A中实现语音识别的应用，设计出具有语音控制功能的音乐播放器。国内外研究现状语音识别的研究工作可以追溯到20世纪50年代ATT贝尔实验室的Audry系统，它是第一个可以识别十个英文数字的语音识别系统。　　但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统；同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。　　随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音（Co-articulation）现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。　　实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学(CarnegieMellonUniversity)的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。　　这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于ATTBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。　　统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别系统。在声学模型方面，以Markov链