基于MATLAB的声波分析研究作者：许文仪谷雨，指导老师：俞熹摘要.DOC

下载文档 降价啦

4
0
约 17页
2017-06-25 发布于天津
举报
版权申诉
保障服务

基于MATLAB的声波分析研究作者：许文仪谷雨，指导老师：俞熹摘要.DOC

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于MATLAB的声波分析研究作者：许文仪谷雨，指导老师：俞熹摘要

基于MATLAB的声波分析研究作者：许文仪谷雨，指导老师：俞熹摘要 Matlab是一款功能强大的数学软件，它附带大量的信号处理工具箱，如sptool、fdatool、wavelet工具箱等，为信号分析研究，特别是本文主要探讨的声波分析研究带来极大便利。声音的特征可用声压强，频率等各种参数描述，本文主要探究声音在频率上体现出的各种特性，并在此基础上在matlab平台下对声纹识别技术做初步探索。关键词 Matlab，sptool，simulink，小波分析，频谱分析，fft变换，声纹识别，端点检测，DTW算法正文 Matlab原始程序于20世纪70年代中期由美国新墨西哥大学计算机系主任Clever Moler开发完成，于1984年由Mathworks公司推向市场。在20多年的发展过程中软件版本不断更新，功能逐步完善，深受大学教师、学生及科研工作人员好评。Matlab也成为数值计算领域耳熟能详的名词，活跃在数值计算的各个舞台。声音是大自然中广泛存在的物理对象，而千千万万中声音当属人类的语音最为特别，这在于它本身的高度有序性和完美的作为信息交流的媒体即表意性。对语音特性的好奇激发了人们对语音的大量研究。在此基础上语音识别技术在最近几十年中逐步发展起来，经历了从相对简单的有限集说话人身份识别（也称为声纹识别）到开放集识别，进而到孤立词词义识别再到连续语音识别的发展过程，是声学、语言学、信息处理技术等多门学科的交叉综合应用的典范。作为人工智能中人机交互手段的首要实现步骤，语音识别及合成技术成为了今年的研究热点，也有不少实用化的技术成果被商家成功推向了市场，也让人们看到了它在PDA、智能家电、工业控制等领域的广阔发展前景。本文就结合Matlab优秀的数值计算能力及强大的信号处理功能，借助于对声音的部分基本特征的研究，拓展Matlab在物理实验中的应用，并初步揭开语音识别的奥秘。 1．发声的生理机构与过程对声音特别是人声的研究，首先得从人发声的基本规律开始。人的发音机理如图所示：发音时由肺部收缩送出一股直流空气，经气管流至喉头声门处。在发声之初，声门处声带肌肉收缩，声带并拢间隙小于1mm，这股直流空气冲过很小的缝隙，使声带得到横向和纵向速度，此时，声带向两边运动，缝隙增大，声门处压力下降，弹性复力将声带拉回平衡位置继续趋向闭合，即声带振动，且具有一定的振动周期。人的声道和鼻道都是非均匀的声道管，声道官的谐振频率称为共振峰频率，或简称共振峰。它与发音器官的确切位置和形状有很大关系，即共振峰和声道的形状与大小有关。经研究，韵母音色差异可用前三个共振峰f1、f2、f3表示，f1主要分布在290到1000Hz范围内，f2主要分布在500到2500Hz范围内，f3主要分布在2500到4000Hz范围内。 2．发声模型为对发生模型作一个定性了解，见下图的简化的一维模型。按以上发声机理，气流上冲，获得一个特定的频率，在口腔中形成发射，最后由口部出射由于口腔中气体的速度一定，故给定一个谐振动的话，可得相应波长为,于是初态入射波的空间部分可表达为：sin(k0x) 。口腔是产生不同声音的重要部位，现用最简单的驻波模型，易知其本证态为：，（与L有关，实际中L=L(x)），，故驻波模式数与频率特征位置对应，。这就是声音频域图中产生基频与泛音的原理。初态t~0，有，求得，即为对应频率为的振动频率波的功率。由上式，仅当时，被积函数在0~L的周期内才会有很大的值，否则由于cos 函数的振荡性，积分值必不会很大。实际中，声带对给定的f是差不多的，改变口腔的形状、舌的位置等，相当于调整，因此引起主极大位置的变化。假定保持口腔位形几乎不变，多次发音，实得图形中主极大位置几乎不变，次极大位置也少有变化，两者高度对比的变化也不大。由于人声带起振频率偏低，因此频图中能量集中于低频段。见上图，横轴为频率，单位Hz，纵轴为功率。再考虑时间部分，假定是间部分为延时达2A的谐波，则，功率，半峰宽。 X为方程的解，故如A为常数，不变。实验得到的是高频率半峰宽显著增加，说明A随n的增加而减少，即高频段持续时间减少。见左边两图。第一图为中心频率为193Hz附近的基频，半峰宽（图中圆形数据点之间）读数为6.5Hz左右；第二图为中心频率2790Hz附近的共振峰中的一条主峰，半峰宽（圆形数据点之间）读数为17.3Hz左右。可见随频率的增高，半峰宽的增加是相当显著的。从下图来看，衰减并不是单纯的A的减小，时间部分或许是类似e指数形的衰减因子，考虑到模型比较粗糙，故只能定性给出上述的一些基本说明。 3．频谱分析方法语音感知过程与人的听觉系