语音识别论文中期报告.doc

下载文档 降价啦

7
0
约1.24万字
约 18页
2019-10-15 发布于湖北
举报
版权申诉
保障服务

语音识别论文中期报告.doc

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

硕士研究生学位论文中期检查报告基于改进模糊C-均值聚类的说话人识别姓名：班级：学号：专业：导师：研究方向：信号处理填表说明与要求 1.中检时，报告人应向中检审查小组提供一定数量的阶段性研究成果，具体数量由各学科专业自行确定。2.中检报告一般应包括研究内容、研究工作进展、论文的主要创新点、论文的后期工作安排、参考文献等等。文科不得少于5000字，理科不得少于3000字。 3.参考文献格式参照学位论文。 4.论文中检时间一般应不晚于入学后第五学期9月末之前完成。 5.中检报告的格式和内容可根据学科专业特点作适当调整。 6.中检报告中的字体均用宋体五号字，用A4纸打印，于左侧装订成册。一、研究内容简介 1.说话人识别的基本概念说话人识别(speaker recognition，SR)，也称为声纹识别(voice print recognition，VPR)，就是利用说话人的语音信号同预先提取的说话人语音特征相比较来确定或鉴别说话人身份的技术。说话人的语音信号中不仅包含有语义内容方面的信息，同时也包含有关说话人身份的个人信息。每个人由于自己独特的声道特性和发音特点，使其讲话具有区别于其他说话人的特征，这就是说话人识别的基本依据。说话人识别也可以看作是语音识别的一种特殊形式，它和语音识别一样，都是通过对所收到的语音信号进行处理，提取相应的特征，建立相应的模型，然后据此做出判断。说话人识别与语音识别的区别在于，说话人识别着重于希望从语音信号中提取出人的个性特征，强调不同人之间的差别，而语音识别希望从词语信号中寻找共性因素，尽量剔除说话人的个性特征，突出语音信号的语义差别。 2.说话人识别系统框图图1 说话人识别系统框图图1显示了说话人识别系统的框图，其中主要包括了预处理、特征提取、模版训练和模式识别四个模块，下面详细说明每个模块的功能：（1）语音信号的预处理：通过预处理滤除掉各种噪声和干扰，提升信号中的高频部分，加窗分帧后，进行端点检测，去掉无声的语音段，选取有声段的语音帧为特征提取做准备。（2）语音信号特征参数的提取：在有声段的语音帧中提取能够有效表征说话人特征的参数。现在采用的特征参数都是从语音信号模型中得到的，它们既包含说话人的语音特征，又包含说话人的个性特征，并且相互交织在一起，以复杂的形式存在于语音参数中。（3）说话人模版的训练：是指将表征说话人特征的数据进行处理，建立起说话人模版的过程。不同的说话人识别方法对应不同的说话人模版训练方法。（4）说话人模式识别：待识别语音的特征与说话人模版进行匹配，计算匹配距离。由于本文是进行说话人识别，所以应与所有人的模版进行匹配计算匹配距离。最后根据计算结果，判别说话人的身份。 3本课题的主要研究内容（0）为了满足研究需要，利用matlab软件自行设计说话人识别系统并进行仿真。（1）以本课题组10名说话人为实验对象，采集样本语音信号。（2）对样本语音信号进行高通滤波，端点检测，加窗分帧等预处理操作。（3）讨论语音信号特征参数的选取问题。（4）提取预处理后的语音信号中的特征参数。（5）分析现今常用模版训练（在说话人识别系统中此步骤叫做说话人码本的训练）方法，选取适合本课题的说话人码本训练方法。（6）利用提取的特征参数来训练说话人的码本。（7）选取模式匹配准则（在说话人识别系统中此步骤叫做说话人识别准则）。（8）利用训练好的说话人码本来识别未知说话人的身份。（9）利用客观评价准则来评定本文所设计说话人识别系统的性能，并将此系统与传统的说话人识别系统进行性能比较。（10）总结该设计的优点与不足。二、研究工作进展（开题以来已完成的工作和取得的成果以及存在的问题）（一）已完成的工作本设计全程以matlab进行实验和仿真 1、以本课题组10名说话人为实验对象，采集样本语音信号。实验中，采样频率为8kHz，利用笔记本电脑内置的麦克风采集10名说话人（说话人1、说话人2、…、说话人10）的语音信号，每人录音1200次，每次1s，匀速朗读书本任意内容，其中1000次用于训练生成码本，200次用于识别。在matlab中实现该功能的主要语句：y=wavrecord (1*fs,fs,1,int16) ，1*fs表示采样时间为1s。fs代表采样频率，本实验中fs=8000Hz。1代表单声道。 int16表示采集的数据为双精度。采集的语音信号保存在变量y中。然后利用函数w