《数字信号处理》语音识别系列实验.docVIP

《数字信号处理》语音识别系列实验.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数字信号处理》语音识别系列实验.doc

《数字信号处理》语音识别系列实验 引言: 语言是人类最重要的交流工具,自动语音识别技术起源于20世纪50年代,最早的商用系统是IBM在90年代推出的ViaVoice。经过半个多世纪的发展,语音识别技术目前已日趋成熟并成功应用到人们的日常生活之中,如苹果手机的Siri体验、科大讯飞的迅速崛起等。 语音是一种典型的、易于获取的一维时序信号,语音识别技术也是数字信号处理课程绝佳的实践途径。时间序列分析、快速傅里叶变换、滤波器设计等多项数字信号处理的教学内容在语音识别核心技术中均占有重要地位。本系列实验即面向语音识别基本任务,由浅入深,循序渐进地设计完善语音识别系统,包括时域法、频域法、说话人识别三个具体实验。 实验1 基于时域分析技术的语音识别 实验目的:熟悉语音数据的基本形式及特点,理解并应用离散时间信号的基本分析、处理方法,理解语音识别技术的概貌,为后续实验打好基础。 实验原理及要点: 语音信号的采集: 采集“0”、“1”、…、“9”这10个语音的wav文件,每个类别应采集10组以上的样本。可以通过Windows的录音机等应用软件来实现,也可以借助语音处理的API函数,通过编程的方式来实现。 图1. Windows的录音机。 语音信号格式的理解: 通过互联网调研wav文件的具体格式,找到并理解其中与本任务密切相关的字段,如采样率等,能够编程实现对其中语音数据字段的读取功能。 图2. WAV文件格式。 语音信号的预处理: 对语音原始数据实现端点检测等基本的预处理任务,为后续的时域分析做好准备。端点检测的含义为将数据的实际发声部分从静音及背景噪声中分割出来,如图1所示。后续计算将仅针对分割出的部分进行。该部分可以采用交互式的手工方式来实现,也可编程自动化地实现。 图1. 语音数据的端点检测。红线部分即为对三个孤立语音中的第一个实现了端点检测。 时域分析: 基于已经提取的语音数据数组,对其时域特性进行分析和计算,可以计算其短时能量、过零率或其他你认为对本任务有益的数字特征。 其中短时能量的计算公式为: (1) 这里N为帧长,表示第n帧语音信号的短时能量。 第n帧语音信号过零率的计算公式为: (2) 其具体计算步骤如下: a) 首先对信号进行去直流化; b) 然后按照时间顺序统计采样点数值符号变号的次数; c) 将上述计数出的次数针对序列时长进行归一化操作,即得到过零率。 过零率实质上是信号频谱分布在时域的一种最简单的体现,即高频分量丰富的信号其过零率也一般较高。 5.语音识别分类器的实现: 针对上述提取完成的语音特征向量,选取合适的分类器算法来实现自动语音判别。可供选择的分类器包括Na?ve Bayesian、Fisher线性判别、决策树、支撑向量机、最近邻分类器等。分类器的选取应充分说明理由,并在下述实验中通过对比来支撑自己的观点。 6.实验对比及量化分析: 通过一定数量的实验结果,分析上述各个环节中算法的性能,并通过对比不同方法,验证所选用方法的优势。对于语音识别的精度应通过正确率、误纳率等各种指标进行统计分析与对比。实验结果应通过图、表、文字等多种方式进行综合呈现。 实验内容及要求: 实现时域法语音识别的基本过程,允许对其中的部分环节采用手工交互式的方式来实现,但对于时域分析计算、分类器实现等核心模块应编程实现。 编程语言不做要求,可以是C/C++/C#、java、Pascal、Python、Matlab等。 本实验对于界面编程不做具体要求。 实现平台不限,Windows、Linux、或Android均可。 以小组为单位,完成一份实验报告,报告应遵循学术论文的一般格式和规范。 实验2 基于频域分析技术的语音识别 实验目的:熟悉语音数据的基本形式及特点,理解并应用离散时间信号的基本分析、处理方法,理解语音识别技术的概貌,为后续实验打好基础。 实验原理要点: 语音信号的频谱计算: 傅里叶变换是频谱计算的主要途径,而FFT则是工程上实现傅里叶变换的利器。本实验就要用到FFT,注意帧长应设置为2的整数次幂,以利于实现按时间抽取或按频率抽取的蝶形算法。 梅尔(Mel)频率谱的计算: 梅尔(Mel)频率谱是在已知信号频谱的基础上,基于人类听觉系统的感知特性,设计出的一种频谱分组方式。通过计算Mel频谱,将得到比原始傅里叶频谱更加具有区分性的频域紧凑表达,从而有利于精确地实现识别任务。 图2. 梅尔频率倒谱的基本概念示意图。 语音信号的预加重: 由于语音的高频分量对于识别具有特别的意义,然而高频分量又通常能量较弱,因此应对原始语音信号首先进行预加重滤波处理,再进行后续的频谱计算。这就涉

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档