- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GMM论文大纲
毕 业 设 计(论 文)大 纲
设计(论文)题目: 利用GMM进行说话人识别的方法和实现
学生姓名: 孙翔 学号: 1121119010
专 业: M11电子信息工程
所在学院: 龙蟠学院
指导教师: 陈存宝
职 称: 工程师
2015年03月15日
摘要
说话人识别具有采集方便、内容丰富、符合使用习惯等优点,在当今诸多领域有着广泛的应用前景。本文针对短语音文本相关的说话人识别应用,对说话人识别系统的原理和结构进行了详尽的介绍和分析。
第一章绪论
1.1研究背景和意义
阐述了语音识别技术的发展现状,采用说话人语音进行说话人身份识别的众多优势,介绍其发展背景意义。
1.2说话人识别技术的发展简史
简单介绍说话人识别的发展历史。
1.3说话人识别技术的应用领域和前景
分析了说话人识别技术应用的基本领域和这些领域内一些比较典型的应用。
1.4说话人识别技术
1.4.1语音的产生模型
介绍语音的产生机理,对语音的产生机理建立时域模型。
1.4.2说话人识别原理
说话人识别按照语音内容可以分为文本相关、文本无关和文本提示三种类别,本文中文本相关的说话人识别要求在训练和识别的时候使用内容相同的语音素材。
第二章特征参数提取
针对语音端点检测对于系统识别率的影响,对目前已有的语音端点检测方法进行简要介绍;并结合实际的使用环境,提出了基于基音与共振峰估计的语音端点检测方法。
2.1.语音端点检测的必要性
有效的语音端点检测技术不仅能在语音识别系统中减少数据采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声和静音段的比特率,提高编码效率。
2.2 语音端点检测的评价标准
目前,语音端点检测还没有客观统一的评价标准,大多数文献采用手工标注的方法来评价算法的检测性能。
2.3 现有的语音端点检测方法
目前,语音端点检测主要通过对语音信号进行时/频域分析的方法来实现。
2.4 基于基音与共振估计的语音端点检测方法
2.4.1语音频谱特性
要区分语音和背景噪声,只能依据语音所特有的信号特征加以辨别。
2.4.2 检测方法
基于频域自相关的检测函数受共振峰频率的影响较小,能够准确地估计基音频率。
2.4.3 实验仿真
主要检测语音片段以及噪声片段。
第三章 语音特征提取
同态信号处理的基本原理,并引出了倒谱的概念;通过对倒谱性质的分析,阐述了选择倒谱作为语音特征的依据。
3.1 同态信号处理基本原理
按照输入信号的产生方式,同态信号处理可以分为乘积同态处理和卷积同态处理两大类。
3.2 复倒谱和倒谱
3.2.1 倒谱的定义
3.2.2 倒谱的性质
复倒谱和倒谱是基于信号频谱结构的特征参数,相比于其他的特征参数,倒谱具有卷积分高、幅度无关的特性。
3.3 Mel频率倒谱系数
Mel频率倒谱系数是一种以Mel频率尺度进行频带划分的倒谱特征参数。
第四章 基于正交距离分解的说话人识别算法
针对目前主流的语音特征匹配方法存在的缺陷,提出了正交距离分解的概念;在此基础上,讲正交距离分解与FCM方法结合,进一步提出了基于正交距离分解的模糊矢量化算法,并将该算法用于说话人识别。
4.1引言
目前,说话人识别普遍采用的模式匹配方法主要有基于模版匹配的方法以及基于人工神经网络的方法。
4.2 正交距离分解
阐述高斯混合模型的基本概念,模型的描述,模型的阶数及模型训练。
4.2.1 最佳投影矢量
4.2.2正交距离分量
在确定了能够描述赝本空间分布特性的最优投影矢量后,需要进一步确定判决养点与聚类空间隶属程度的测度依据。
4.2.3高斯混合模型的阶数
4.2.4模型训练
给定一个观测矢量,其所属的高斯分布(声学类别) 为一“隐藏”的信息,因此模型的训练需藉助期望值最大化的方法。
4.3 算法简介
4.3.1 基于正交距离分解的模糊矢量量化
4.3.2基于正交距离分解的模糊分类器
4.4 实验仿真
实验采用普通实验室环境下录制的语音样本进行实验仿真。在实验中,分别使用每段语音样本作为训练语音生成说话人码本,并用该码本与其余语音样本进行说话人确认测试。
第五章 说话人识别系统开发
5.1 系统结构
一个完整的说话人识别系统分为图形用户界面、语音采集、文件管理、用户管理以及语音处理五个模块。
5.2 实现细节
5.2.1 多平台联合项目开发
文
您可能关注的文档
最近下载
- 2.2探秘传感器技术+课件-2024—2025学年上海科教版(2024版)初中信息技术八年级上册.pptx VIP
- 职业健康检查质控计划实施方案.docx VIP
- GB 50038-2005(2023年版) 人民防空地下室设计规范.docx
- 冀教版一年级数学上册我上学了《1认识新朋友》课件.pptx
- 泽天 EM-5烟气分析仪用户手册 2015-5-20.pdf VIP
- 精益思想与精益生产.ppt VIP
- 2022版 电力建设土建工程施工、试验及验收标准表式(第1部分 施工).doc
- 《感染性休克》ppt课件.pptx VIP
- 2025年高级工具钳工(三级)技能认定理论考试题库(含答案).docx VIP
- 肿瘤靶向治疗的新药研发进展.pptx VIP
文档评论(0)