- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(用于智能家居的语音识别系统设计
仪器科学与电气工程学院
本科毕业论文(设计)开题报告
题 目: 用于智能家居的语音识别系统设计
学生姓名: 学 号:
专 业:电气工程及其自动化
指导教师: 讲师
2015年1月3日
选题选题背景预期成果 语音是由声道激励发生共振而产生的,由于在发声过程中声道是运动的,因此可以用一个时变线性系统来描拟。当在一个较短的时间间隔内表示语音信号时,可以采用线性时不变模型,如图1表示信号产生模型。
图1 信号产生模型
三部分模型有各自相应表达式,最终的输出信号由各部分模型串联组成。
(2)语音信号的处理
语音信号中含有丰富的信息,从中提取对语音识别有用信息的过程,就是特征提取。特征提取方法是整个语音识别系统的基础,对语音识别率有极其重要的影响。它主要分为 3 类:①基于 LPC 的倒谱参数分析;②基于 FFT 的频谱余弦变换分析;③采用前沿数字信号处理技术的特征分析手段,如小波分析、时——频域分析、人工神经网络等。
语音识别的过程可以看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某个模型获得最佳匹配的过程。模式匹配要用到参考模板,这些模板通过模板训练获得。模板训练就是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数。
(3)语音识别原理
语音识别属于模式识别,与人的认知过程一样,分为训练和识别两个过程。在训练阶段,语音识别系统对人类语言进行学习,学习结束,把学习内容组成语音库存储起来;识别阶段就可以把人们当前输入的语音在语音库中查找相应的词义或语义。从信号处理的角度,任何一个语音识别系统都能以图2来表示:
图2 语音识别系统
3.2语音识别模型
语音识别基本原理是对语音信号进行特征提取。目前常用的语音识别算法有基于模式匹配的动态时间规整法(DTW:Dynamic Time Warping),基于统计模型 DSP 的隐马尔可夫模型法(HMM:Hidden Markov Model)以及基于人工神经网络识别法(ANN)等。
(1)隐马尔可夫模型法(HMM)
HMM 作为语音信号的一种统计模型,在语音处理领域中获得广泛应用。HMM 是在马尔可夫链的基础上发展起来的。由于实际问题比马尔可夫链模型所描述的更为复杂,观察到的事件并不是与状态一一对应,而是通过一组概率分布相联系,这样的模型就称为 HMM。它是一个双重随机过程,其中之一就是马尔可夫链,这是基本随机过程,它描述状态的转移。另一随机过程描述状态与观察值的统计对应关系。站在观察者的角度,只能看到观察值,不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性。因而称之为“隐”马尔可夫模型。
隐马尔可夫模型法可用于大多数大词汇量、连续语音的非特定人语音识别,它很好的模仿了人的发音系统的状态与语音信号这两个随机过程,是一种较为理想的语音模型,但是他的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM 的 DSP 才能完成。
(2)人工神经网络 (ANN)
ANN 在语音识别领域的应用是在 20 世纪 80 年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是 ANN 相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用 ANN 的系统识别性能不高,所以目前 ANN 通常在多阶段识别中与 HMM 算法配合使用。
(3)动态时间规整(DTW)
语音识别中,不能简单地将输入模板直接比较,因为语音信号具有相当大的随机性,即使同一个人,在不同时刻的同一句话发的同一个音,也不可能具有完全相同的时间长度,因此时间规整必不可少。DTW 是时间规整与距离测度结合的非线性规整技术。假设参考模板特征矢量序列为 a1,a2,…,am,…,aM;输入语音特征矢量序列为 b1,b2,…,bn,…,bN,M≠N,那么动态时间规整是要寻找时间规整函数 m=ω(n),它把输入模板的时间轴 n 非线性地映射到参考模板的时间轴 m。
上式中,d [ n,ω(n)]是第 n 帧输入矢量和第 m 帧参考矢量的距离,D 是相应于最优时间规整下一个模板的距离测度。DTW 是一个典型的最优化问题,它用满足一定条件的时间规整函数 ω(n)描述输入模板和参考模板的时间对应关系,求解两模板匹配时的累计距离最小所对应的规整函数。DTW 算法通
文档评论(0)