基于小波变换的说话人语音特征参数研究.pptVIP

下载本文档

0
0
约3.6千字
约 15页
2025-03-31 发布于四川
举报
版权申诉

基于小波变换的说话人语音特征参数研究.ppt

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文本无关：比如声控开门，你说“开”，它就开，你说“快开门”，它也会开*第一章介绍了说话人识别的基本理论，包括基本原理、技术发展状况、应用和难点问题等；第二章介绍了说话人识别中的特征参数，其中提到了频率群和临界带的概念：第三章介绍了小波分析，涉及到小波分析、小波多分辨分析、小波包分析的概念；第四章介缁了新参数的提取思路和步骤：第五章给出了实验结果和分析。*微积分的思想分割近似代替求和取极限*不确定性原理（Uncertaintyprinciple），是量子力学的一个基本原理，由德国物理学家海森堡（WernerHeisenberg）于1927年提出。该原理表明：一个微观粒子的某些物理量（如位置和动量，或方位角与动量矩，还有时间和能量等），不可能同时具有确定的数值，其中一个量越确定，另一个量的不确定程度就越大。**离散余弦变换(DiscreteCosineTransform)；*基于小波变换的说话人语音特征参数研究西安电子科技大学硕士学位论文宋丽亚摘要说话人识别是利用说话人的语音特征对说话人的身份进行辨认或确认。在说话人识别系统中，最重要的是能够从语音片断中提取代表说话人独有特征的稳定参数。针对短时傅立叶分析在提取说话人特征参数时的缺陷，本文通过对小波理论和说话人识别技术的研究，借鉴了一种传统的基于听觉机理的特征参数MFCC(Mel频域倒谱系数)，利用小波变换、小波多分辨分析和小波包变换，构造出了两种基于小波变换的说话人识别特征参数：IWPTC(不完全小波包变换系数)和WPTC(小波包变换系数)。通过在Matlab平台上构建的说话人识别系统(包括文本有关和文本无关)，验证了这两种参数的有效性：它们的识别率均高于MFCC参数。理论和实验证明，利用小波变换提取的说话人识别特征参数相比于传统的短时分析方法确实具有更好的识别特性。关键词：说话人识别小波变换MFCC参数论文摘读绪论部分说话人识别技术虽然在近二十年得到了迅速发展，但仍然有许多问题需要解决，其中最关键的问题是，究竟用语音信号的哪些特征或特征变换来表征说话人才是有效而可靠的?语音信号是一种典型的非平稳时变信号，但是在10～30ms的短时段内，语音信号是近似平稳的，这是由于人的发音器官不可能是毫无规律地快速变化，因此其频谱特性和某些物理特征参量可以近似看作是不变的，这样我们就可以用平稳过程的分析方法来处理语音信号了。传统意义上的特征参数构造就是基于短时平稳的假设，需要将原始信号分成10～30ms的短时帧，主要采用短时傅立叶变换的分析手段。由于短时傅立叶变换只具有单一分辨率的分析，所以本质上并不适合对语音信号这种非平稳时变信号的分析，用它提取的特征参数必是不完善的。时频分布理论和小波理论的兴起为非平稳信号的分析和表示提供了新的手段，并已经在语音信号的分析和表示方面取得了一定的成功，有很大的发展潜力。小波变换采用多分辨分析的思想，非均匀的划分时频空间，在低频时有高的频率分辨率和低的时间分辨率，在高频时有低的频率分辨率和高的时间分辨率。这样对于频率成分复杂的语音信号，在服从不确定性原理的前提下，使不同的时频区都可以获得比较合适的时一频分辨率。目前，小波分析应用于端点检测、基音提取、语音编码等方面都有较成功的应用，但是对于说话人识别的特征参数提取方面涉及较少。用小波变换构造新的语音识别特征参数，不必受短时平稳假设的限制，所以作者希望借助于小波分析工具能够得到更高效的说话人识别特征参数。在这个过程中，作者借鉴了MFCC参数的提取过程，提取出了两种基于小波变换的特征参数:IWPTC(不完全小波包变换参数)、WPTC(小波包变换参数)，在Matlab平台上进行了测试，结果表明，采用这两种参数的说话人识别系统的识别率均高于MFCC参数。第四章基于小波变换的新参数（部分）倒谱特征是用于说话人个性特征表征和说话人识别的最有效的特征之一。语音信号是声道频率特性和激励信号源二者的共同结果，后者对于某帧而言常带有一定的随机性，而说话人的个性特征很大程度上取决于说话人的发音声道，即声道频率特性，因此，需要将二者进行有效地分离。由于语音信号是由激励信号与声道频率相卷积的结果，可以把信号作适当的同态滤波将卷积的两个部分分离，滤波的关键是先将卷积处理化为乘积，然后作对数处理，使之化为可分离的相加成份。人耳对声音的感知在频域是非线性的，经验证明，在信号处理中考虑到非线性特性，能够使提取出来的特征参数更加强壮。Mel标度描述了人耳对频率感知的非线性特性。1倒谱分析和MFCC参数MFCC就是基于听觉系统的临界带效应、在Mel标度频率域提取出来的一种倒谱参数。许多实验表明，大部分情况下，MFCC优于其它倒谱系数。