语音识别文献介绍.ppt

下载文档 降价啦

8
0
约3.24千字
约 21页
2017-07-02 发布于湖北
举报
版权申诉
保障服务

语音识别文献介绍.ppt

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Company Logo LOGO 语音识别文献综述专业：通信工程学生：顾文武学号：S151000805 目录研究背景与意义语音识别技术语音建模单元声学模型语言模型结语与致谢研究背景语言是人类相互交流最常用、最有效、最重要和最方便的通信形式。随着计算机的快速发展，人们生活的方方面面都离不开计算机，那么让计算机理解语言显得十分重要，语音识别技术也将是实现社会生活信息化和智能化进程中不可或缺的一环[1]。近期，通过采用深度神经网络技术，微软大大提升了语音识别的准确率，错误率降低至18.5%。但是它还是一个科研项目，实验条件十分理想。一、研究背景及意义一、研究背景及意义研究意义如今语音识别技术虽然有了显著提高，但是仍存在诸多问题有待解决[2]，如: 1)语音信号会受到上下文的影响而发生变化; 2)发音人以及口音的的不同会导致语音特征在参数空间分布的不同; 3)同一发音人心理和生理变化带来的语音变化; 4)不同的发音方式和习惯引起的省略、连读等多变的语音现象; 5)环境和信道等因素造成的语音信号失真问题。二、语音识别技术语音识别就是让机器能够理解人类语言，使它们能更好地对人的意图做出正确反应。语音识别系统是一种模式识别系统，是建立在一定的硬件平台和操作系统之上的一套应用软件。语音识别的建模大致分为2个步骤：训练阶段得到相应“模板”，识别阶段利用搜索算法的到最优解。二、语音识别技术（是什么？）其中，X用表示语音信号，W表示文字序列。前一部分代表语言模型，表示一个文字序列本身的概率，也就是这一串词或字本身有多“像一句话”；后一部分代表声学模型，表示给定文字后翻译成这种语音信号的概率，即这句话有多大的可能发成这串音。三、语音建模单元语音识别中建模单元的选取需要考虑一致性、共享性和可训练性[3] 。语音识别根据任务的不同，可以将音素、音节或者词作为基本的建模单元。在LVCSR的研究中，通常使用比较细致的音素作为建模单元。其次，常用上下文相关的音素建模方法( 例如常用的三元音素建模)来对语音中的协同发音现象进行建模。四、声学建模常用的声学建模方法包含以下三种：（这个地方也应该有文献引用吧！某某人提出什么方法啥的，常用的方法的话就把最初那个人提出来就好了，不过，也可以不用酱紫）基于模式匹配的动态时间规整法（DTW）---它基于动态规划的思想，解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。隐马尔可夫模型法（HMM）---是在马尔可夫链的基础上发展起来的，它是一种基于参数模型的统计识别方法。基于人工神经网络识别法（ANN）---以数学模型模拟神经元活动，将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域。四、声学建模动态时间规整DTW [4] （这里是文献引用，吗？标错了吧）(dynamic time warping) 思想：由于语音信号是一种具有相当大随机性的信号，因此在与已存储模型相匹配时，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模板特征对正。特点:用时间规整手段对正是一种非常有力的措施，对提高系统的识别精度非常有效。四、声学建模隐马尔可夫模型法[5]（HMM） HMM思想是：HMM模仿人的言语过程，可视作一个双重随机过程。一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程；另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程。 HMM 2个重要假设一阶马尔可夫假设：HMM当前时刻t所处状态st 只和前一时刻的状态st-1 有关，与此前或者未来的其他时刻的状态都无关；输出无关假设：当前时刻的输出值仅受当前状态的概率密度支配，与历史上已经产生的其他输出值和状态无关。四、声学建模 3.HMM建模的3个基本问题---评估问题，解码问题和训练问题 a、HMM数学表示 HMM数学表示，表示观测序列，代表HMM K 个有限状态，代表初始时刻HMM处于K个状态的分布概率，A代表状态转移矩阵，B代表不同状态下的输出概率分布函数。 b、评估问题在观测向量O和HMM模型之间存在着隐藏的状态序列，任何一个可能的状态序列都能以一定概率产生观测向量O。所以对于，需要首先计算出HMM模型按照特定的状态序列S进行跳转时产生O的概率,再将所有可能存在的状态序列对应的概率进行累加，即四、声学建模根