前言和开发背景-Read.docVIP

下载本文档

6
0
约1.14万字
约 19页
2017-09-15 发布于天津
举报
版权申诉

前言和开发背景-Read.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

前言和开发背景-Read

1 前言和开发背景 1.1前言本课题为给语音识别系统提供语音信号端点检测的功能对语音信号端点检测进行了探讨和研究。语音信号处理部分包括：语音信号的电压放大、反混叠滤波、自动增益控制、模／数变换、去除声门激励及口唇辐射的影响等。本课题主要是侧重语音区间的端点检测端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。为了实现可靠的端点检测在算法ad中主要应用了短时能量和过零率两者配合实现并且在端点检测的过程中采取四个阶段标识语音信号的状态来实现的。对大象声音进行录制和处理利用MATLAB软件进行端点检测,MATLAB软件是语音识别系统中有效方便的工具提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、便捷地与其他程序和语言接口的功能。结果表明基于端点检测算法ad和应用MATLAB工具可以有效确定语音的起点和终点并能够以图像的形式直观的表示出来端点检测使处理时间减到最小排除无声段的噪声干扰从而使识别系统具有良好的识别功能[1]。 1.2开发背景项目来源于云南省重点项目西双版纳自然保护区系统建设。综合应用传感器技术数字仿真技术数据编码与数据压缩技术DSP技术无线传输技术等研究自然保护区视频信号、声音信号以及其他监测信号的采集、传送、处理方案设备选型方案二次开发技术为自然保护区信息系统建设。。本课题研究的目的在于为开发一个能够识别野象声音的语音识别系统提供语音信号的端点检测功能使处理时间减到最小排除无声段的噪声干扰从而使识别系统具有良好的识别功能。2 语音信号端点检测概述 2.1语音在做本课题的过程中实时的处理方法在录音时必须声音进行控制。在一个语音识别系统中程序必须能够判断当前是静音还是对象在说话如果对象发出了语音信号那么应该保存这段语音信号将其头部和尾部的静音部分删除掉。这一功能被称为语音信号的端点检测[2]。语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。其硬件平台一般是一台个人机或是一台工作站；操作系统可以选择UNIX或WINDOWS系列。语音识别一般分两个步骤。第一步是系统“学习”或“训练”阶段。这一阶段的任务是建立识别基本单元的声学模型以及进行文法分析的语言模型等。第二步是“识别”或“测试”阶段。根据识别系统的类型选择能够满足要求的一种识别方法采用语音分析方法分析出这种识别方法所要求的语音特征参数按照一定的准则和测度与系统模型进行比较通过判决得出识别结果。语音识别系统除了包括核心的识别程序还必须包括语音输入手段、参数分析、标准声学模型、词典、文法语言模型等以及制作这些东西所需的工具。根据识别结果在实际环境下实现一定的应用还必须考虑耐环境技术用户接口输入和输出技术等。因此语音识别技术加上各种外围技术的组合才能构成一个完整的实际应用的语音识别系统。从语音识别系统的各个功能划分的角度出发语音识别系统可分为语音信号的预处理部分、语音识别系统的核心算法部分以及语音识别系统的基本数据库等几部分。图1给出了一般语音识别系统的组成框图[5]。图1给出了一般语音识别系统的组成框图。识别预处理的过程主要是对通过话筒或电话线路输入的语音信号进行数字化采样、在语音检测部切出语音区间、经过语音分析部变换成特征向量在语音识别部根据单词字典和文法的约束进行语音特征向量时间序列和语音声学模型的匹配输出识别结果然后或直接把识别出的单词或由单词列组成的句子输出给应用部分(Application)或把识别结果转接成控制信号控制应用部分的动作[3]。2.2语音端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效的端点检测不仅能使处理时间减到最小而且能排除无声段的噪声干扰从而使识别系统具有良好的识别性能。有学者用一个多话者的数字识别系统做了如下一个实验。首先对所有记录的语音用手工找出准确的端点得到它们的识别率；然后逐帧(帧长为15ms)加大端点检测的误差在每次加大误差的同时得到它们的识别率。结果表明在端点检测准确时识别率为93%的系统当端点检测的误差在+60ms(4帧)时识别率降低了3%；在+90ms(6帧)时降低了10%；而当误差在进一步加大时识别率急剧下降。这说明端点检测的成功与否甚至在某种程度上直接决定了整个语音识别系统的成败[4]。在设计一个成功的端点检测模块时会遇到下列一些实际困难：⑴ 信号取样时由于电平的变化难于设置对各次试验都适用的阀值。 ⑵ 在发音时人的咂嘴声或其他某些杂音会使语音波形产生一个很小的尖峰并可能超过所设计的门限值。此外人呼吸时的气流也会产生电平较高的噪声。 ⑶ 取样数据中有时存在突发性干扰使短时参数变得很大持续很短时间后又恢复为寂静特性。应该将其计入寂静段中。 ⑷ 弱摩擦音时或终点处是鼻音时语音的特性与噪声极为接近其中鼻韵往往还拖得很长。 ⑸ 如果输入信号中有50