matlab本身提供了一定的音频处理能力,主要包括表1-1中的6 - read.docVIP

下载本文档

4
0
约2.27万字
约 36页
2017-09-06 发布于天津
举报
版权申诉

matlab本身提供了一定的音频处理能力,主要包括表1-1中的6 - read.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

matlab本身提供了一定的音频处理能力,主要包括表1-1中的6 - read

中文摘要在实际语音信号处理过程中，比如环境噪声的存在，使得语音处理系统的可靠性下降。语音增强正是解决噪声污染的一种有效的处理方法，其主要目的是要从带噪声的语音信号中尽可能地提取纯净的原始语音信号。为解决噪声污染问题，语音增强作为数字信号处理一个重要的分支被广泛地应用于诸如降低听觉噪声，识别系统的预处理及其线性预测编码的预处理等领域。语音增强的主要目的，一是消除背景噪声，提高语音质量，使接受端的信息可靠性提高；其次是要提高语音可懂度，去除噪声段与静音的干预。本文采用Matlab作为软件处理工具，基于短时能量和短时平均过零率的双门限端点检测方法，并结合滤波法及其减谱法，对一非实时的带噪语音信号进行去噪和语言段端点检测，利用数字信号处理有关知识对各环节的信号作了时域和频域的比较分析。并通过软件仿真，清晰明朗地给出了相关波形图和语音数据。实践证明该增强系统具有简单，直观，快速的增强和识别效果，完全实现了语言增强和语言段识别。该系统适合应用于语音智能除噪，语音信号分析等领域，与此同时其具备成本低，效率高等优点，因此非常适用于小项目，小课题的研究和开发。第1章语音处理的基础 1.1 语音处理绪论语音是人类互相之间进行交流时使用最多，最自然，最基本也是最重要的信息载体。在高度信息化的今天，语音处理的一般系列技术及其应用已经成为信息社会不可或缺的重要组成部分。语音的产生是一个复杂的过程,包括心理和生理等因素参与作用。当人需要通过语音表达某种信息时，首先得以某种抽象的形式表现在说话人的大脑里。然后转换为一组神经信号，这些神经信号作用于发声器官，从而产生携带信息的语音信号。目前，对语音信号进行研究一般都基于语音信号的数字表示，因此，语音信号的数字表示是进行语音信号处理的基础。语音信号数字化的理论依据是我们熟知的采样定理，即只要采样频率足够高，就可以用时域上周期性抽取的样点来表示一个带限信号。语音信号的离散表示基本上可以分为两类：波形表示和带参数表示。波形表示仅仅是通过采样和量化的过程保存成某种语音产生模型的输出。为了得到参数表示，首先必须对语音进行采样和量化，然后在经济在进一步处理得到语音产生模型的参数。语音模型的参数一般可分为两大类：一类是激励参数；另一类是声道参数。 1.2语音的波形及特征语音信号的数字处理基于语音信号的数字化表示，模拟语音信号经过A/D转换后就得到离散的语音信号数字化采样。语音的数字化采样值以文件形式存储到计算机中后就可以用有关程序或自编程序读出并显示在计算机屏幕上，得到便于观察分析的语音时域波形图。图1-1是数字语音””的时域波形，该段语音的频带宽度为355323-9339383HZ,采样频率为8KHZ，持续时间约为4S。图中，横轴为时间，纵轴为语音的幅度。图1-1的时间轴的时间轴压得很短，只能看清该段语音的轮廓，无法辨别语音波形的具体细节，从图中可以看出语音信号具有很强的”时变特性”。通过放大可以发觉有些波形段具有很强的周期性，有些波形段具有很强的噪声特性，而且周期性语音和噪声语音的特征也在不断变化之中。但在较短的时间内(例如在5—50MS)，语音信号的特征可以认为基本保持不变，这就是语音信号的”短时平稳性”。语音信号的短时平稳性的可以从对一段语音信号的分析中得知，每一段语音信号称为一”帧”语音，语音段的长度称为帧长。由于语音在10-30ms可以认为是平稳变化的，因此语音的帧长一般取10-30ms。在一帧语音中，为了精细地分析提取出语音的某些特征，有时侯还将进一步将一帧均匀划分为若干个”子帧”，例如，20MS的语音帧如果划分成为四个子帧，则每个子帧的长度为5ms。图 1-1 1.3 语音信号的时域分析语音信号是一种非平稳的时变信号，其产生过程与发声器官的运动有关。发声器官的状态变化速度较声音震动的速度较为缓慢得多，因此语音信号可以认为是短时平稳的。在5到50ms的时间范围内，可以认为语音频谱特性和一些物理特性参数基本保持不变。这样一来，我们可以将平稳过程的处理方法和理论引入到语音信号的短时处理中来，每个短时的语音段称为一个分帧。此时，每个分帧好象是从固有特性的持续语音中截取出来的。也可以采用交叠分帧的方法，一般分帧取10-30ms。语音分帧过程中，所采用的最简单的方法是采用矩形窗截取语音信号。一个N点的矩形窗函数定义为: W(n)= (1-1) 一个N点的汉明(Hamming)窗函数定义为： W(n)= (1-2) 一个N点