- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GMM的说话人鼾声识别 张高登 杨康林:程序﹑论文编写 涂辉 刘力:音频软件﹑PPT ﹑文档格式转换 李辉 朱浦力 葛恒芒 胥智慧 蒋泊清:资料收集与汇总 1 说话人识别的历史与现状 2 鼾声处理步骤及算法思想 3 特征提取 4 说话人模型 5 难点和热点 1 说话人识别的历史与现状 对声纹识别的研究始于20 世纪30 年代。 早期:人耳听辨实验和探讨听音识别的可能性方面。 70 年代末至今:重点转向对各种声学参数的线性或非线性处理以及新的模式匹配方法上,如动态时间规整、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术。 2 鼾声处理及算法思想 1 语音产生模型 2 说话人识别基本原理 3 预处理 2.1 语音产生模型 语音信号可以看成是激励信号UG( n) 经过一个线性系统H( z) 而产生的输出。其中, 声道模型H( z) 为离散时域的声道传输函数, 通常可用全极点函数来近似。不同的说话人其声道形状是不同的, 因此具有不同的声道模型。H( z) 表示为其中p 为全极点滤波器的阶数; ai( i=1, 2, ?, p) 为滤波器的系数。p 值越大, 则模型的传输函数和实际声道传输函数的吻合程度就越高, 当然p 值也不能取得太大,一般情况下, p 的取值范围为8~12。 2.2 说话人识别基本原理 2.3 预处理 采样量化, 语音信号通常以8 kHz或更高的采样速率数字化, 每个采样至少用8 bit 表示; 预加重, 声音经过8 kHz 或更高采样速率的采样后转换成数字语音信号, 接着通过一个一阶高通滤波器来作预加重处理以突显高频部分, 其传递函数为: , 一般a 的值取0.95 左右; 取音框, 一般取256 点为一个音框(32 ms) , 音框与音框之间重叠128 点(16 ms) , 即每次位移128 点后再取256 点作为下一个音框, 这样可避免音框之间的特性变化过于剧烈; 加窗, 针对每个音框乘上汉明窗以消除音框两端的不连续性, 避免分析时受到前后音框的影响; 将音框通过低通滤波器, 可去除异常高起的噪声。 3 特征提取 经过预处理后, 几秒钟的语音就会产生很大的数据量。提取说话人特征的过程, 实际上就是去除原来语音中的冗余信息, 减小数据量的过程。 特征参数应满足以下准则: 对局外变量( 例如说话人的健康状况和情绪, 系统的传输特性等) 不敏感; 能够长期地保持稳定; 可经常表现出来; 易于进行测量; 与其他特征不相关。 根据参数的稳定性, 可把说话人特征参数分为两类: ①反映说话人生理结构的固有特征(例如声道结构等) , 主要表现在语音的频谱结构上, 包含了反映声道共振的频谱包络特征信息和反映声带振动等音源特性的频谱细节构造特征信息, 具有代表性的特征参数有基音和共振锋, 这类特征不易被模仿, 但容易受健康状况的影响; ②反映声道运动的动态特征, 即发音方式、发音习惯等, 主要表现在语音频谱结构随时间的变化上, 包含了特征参数的动态特性, 这类特征相对稳定但比较容易模仿, 代表性的特征参数是倒谱系数。 LPCC 参数 :能够比较彻底地去除语音产生过程中的激励信息, 能较好描述语音信号的共振峰特性。在实际计算中, LPCC 不是由信号直接得到的, 而是由LPC 求得。 MFCC 系数 :对已经过预处理的语音向量分别进行离散傅里叶变换; 将得到的离散频谱用序列三角滤波器进行滤波处理, 得到一组系数; 利用离散余弦变换将滤波器输出变换到倒谱域 其他特征 :基音周期 ,倒谱特征 ,短时能量与短时平均幅度 ,短时平均过零率 4 说话人模型 识别模型:指用什么模型来描述说话人的语音特征在特征空间的分布。目前常用的模型可以分为参数模型、非参数模型、人工神经网络模型以及支撑向量机。参数模型是指采用某种特定的概率密度函数来描述说话人的语音特征在特征空间的分布情况, 并以该概率密度函数的一组参数来作为说话人的模型。 典型的参数模型:高斯混合模型和隐马尔可夫模型 非参数模型:指说话人模型是由语音特征经过某种运算直接得来的, 典型的非参数模型是模板匹配方法和矢量量化模型。 5 难点和热点 目前还没有很好的方法把说话人特征从说话人的语音特征中分离出来; 说话人的特征具有长时变动特性, 会随着时间、年龄、健康状况的变化而变化; 声音容易被录音模仿; 语音信号在电话线路上传输时会产生较大失真。由此可见, 说话人识别的难点问题主要集中在特征提取部分, 能否使用相对简单的方法提取到一种最能体现说话人个性信息的特征将是今后研究的热点。 * * 主要内容 输入语音 特性 提取 判决 模型产生 相似性准则 模型存储 预处理 训练 识别 说话人鼾声识别系统框图
文档评论(0)