语音钥匙绪论.docx

下载文档 降价啦

3
0
约6.54千字
约 18页
2016-08-10 发布于湖北
举报
版权申诉
保障服务

语音钥匙绪论.docx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数字信号处理（DSP）综合设计性实验报告北京交通大学电工电子教学基地一、实验目的（1）加深学生对语音信号处理的基本方法的了解，加深对信号检测与去噪、信号相关的理解。（2）培养学生发现问题、分析问题、应用信号处理的基本原理解决实际问题的能力。（3）锻炼学生综合利用数字信号处理基本原理和BJTUDSP5502实验系统解决实际问题的能力，提高学生的工程素质和动手能力。二、实验内容及要求1、相关知识及背景语音信号处理是利用数字信号处理技术对语音信号进行处理的一门学科，其核心技术包括语音合成、语音识别、语音测评等，是现代人机交互的重要方式之一，具有广泛的应用前景。近年来随着互联网和通信的发展，信息检索也呈现多样化，如文字检索、语音检索和基于内容的图像检索，其中语音检索将成为跨领域资源整合的纽带，而语音检索的关键在于进行语音匹配与识别。（1）语音信号的波形和频谱特性分析；（2）信号检测、噪声去除、信号相关理论与算法；（3）语音钥匙的Matlab仿真验证；（4）BJTU-DSP5502实验系统的搭建与编程环境CCS的配置；（5）DSP系统软件编程、调试与实验结果的验证。2、实验内容本实验设计一个基于DSP处理系统的语音钥匙，实验内容如图1所示：图1 实验内容设计13、实验要求利用Matlab将采集到的一段语音进行仿真处理，实现基于语音相关匹配的较为简单的语音钥匙的功能。在CCS编译环境下利用C语言编写语音钥匙程序，并在BJTUDSP5502实验系统平台上实现。若语音钥匙开启，将指示灯D1进行1Hz闪烁（慢闪），并进行相应的语音提示。未开启，将指示灯D1进行3Hz闪烁（快闪），并进行相应的语音提示。三、实现方案设计1、实验原理及其分析简单的语音钥匙就是对采集到的语音信号和已存入的语音信号进行相关运算，相关度较大时语音钥匙开启。（1）语音信号的特点在频域内，语音信号的频谱分量主要集中在300～3400Hz的范围内。利用这个特点，可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出，然后按8kHz的采样率对语音信号进行采样，就可以得到离散的语音信号。在时域内，语音信号具有“短时性”的特点，即在总体上，语音信号的特征是随着时间而变化的，但在一段较短的时间间隔内，语音信号保持平稳。在浊音段表现出周期信号的特征，在清音段表现出随机噪声的特征。（2）语音信号的采集在将语音信号进行数字化前，必须先进行防混叠预滤波，预滤波的目的有两个：①抑制输入信导各领域分量中频率超出fs/2的所有分量(fs为采样频率)，以防止混叠干扰。②抑制50Hz的电源工频干扰。这样，预滤波器必须是一个带通滤波器，设其上、下截止颜率分别是fH和fL，则对于绝大多数语音编译码器，fH=3400Hz、fL＝60~100Hz、采样率为fs＝8kHz；而对于语音识别而言，当用于电话用户时，指标与语音编译码器相同。当使用要求较高或很高的场合时fH＝4500Hz或8000Hz、fL＝60Hz、fs＝10kHz或20kHz。（3）端点检测端点检测是从含噪声的环境中检测出说话人语音信号的起点和终点。系统采用短时能量和过零率来实现，前者描述了信号的能量，后者描述了1 帧信号穿越0 电平的次数。语音信号是非平稳的，是时变的，但由于人的发音器官的运动速度缓慢，所以可以认为语音信号是局部平稳的，或短时平稳的。因此，语音信号分析常通过分段或分帧来进行。语音短时能量与短时平均过零率为端点检测的两种常用方法。根据语音的统计特性，可以把语音段分为清音、浊音以及静音（包括背景噪声）三种。在本算法中，短时能量检测可以较好地区分出浊音和静音。对于清音，由于其能量较小，在短时能量检测中会因为低于能量门限而被误判为静音；短时过零率则可以从语音中区分出静音和清音。将两种检测结合起来，就可以检测出语音段（清音和浊音）及静音段。（4）提取特征参数在语音识别和说话人识别中，常用的语音特征是基于Mel频率的倒谱系数（mel frequency cepstrumcoefficient,MFCC）.由于MFCC参数是将人耳的听觉感知特征和语音的产生机制相结合，因此目前大多数语音识别系统中广泛使用这种特征。人的耳朵具有一些特殊的功能，这些功能使得人耳能够从嘈杂的背景噪声中，以及各种变异情况下听到语音信号，这是因为人的内耳基础膜对外来信号会产生调节作用。对不同的频率，在相应的临界带宽内的信号会引起基础膜上不同位置的振动。由此可用带通滤波器组来模仿人耳听觉，从而减少噪声对语音的影响。耳蜗实质上相当于一个滤波器组，耳蜗的滤波作用是在对数频率尺度上进行的，在1000Hz以下为线性尺度，而1000Hz以上为对数尺度，这就使得人耳对低频信号比对高频信号更敏感。根据这一原则，研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组，就是Mel频率滤波