基于短时能频值的藏语语音端点检测的研究-模式识别国家重点试验室.pdfVIP

下载本文档

2
0
约 5页
2018-08-19 发布于天津
举报
版权申诉

基于短时能频值的藏语语音端点检测的研究-模式识别国家重点试验室.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于短时能频值的藏语语音端点检测的研究-模式识别国家重点试验室

ICMIT′07_213 基于短时能频值的藏语语音端点检测的研究武光利1，于洪志2 中国科学院自动化研究所摘要语音的端点检测将直接决定语音的识别率。利用短时能频积的方法进行语音端点检测，比原先只借助于短时能量和过零率相结合的方法，提高了端点检测的准确率。关键词藏语；能频值；端点检测 Research Based On Energy-Frequency-Value(EFV) In Tibetan Speech Endpoints Detection 1 2 Wu Guangli , Yu Hongzhi Institute of Automation Chinese Academy of Sciences Abstract The speech endpoints detection will decide the speech recognition rate. A new method using Energy-Frequency-Value(EFV) which studied in speech endpoints dectection, had improved more accurate rate in speech endpoints dectection than conventional method which only integrated short-term energy and zero-crossing rate. Keywords Tibetan ；Energy-Frequency-Value ；speech endpoints detection 1. 引言随着社会的不断发展，各种各样的机器参与了人类的生产活动和社会活动，人们发现，人和机器之间最好的通信方式是语言通信，而语音是语言的声学表现形式。于是，语音，作为人类信息交流的最自然、最有效、最灵活而又最为广泛使用的途径，越来越引起研究者的关注,而藏语的语音信息处理还是一片空白。作为语音信号处理研究的重要领域，语音识别技术的最终目的是象人与人之间谈话交流信息一样，实现人一机自由对话，也就是赋予机器以听觉，使机器能听懂人的语言，辨明话音的内容或说话人，将人的语音正确地转化为书面语言或有意义的符号，或者进一步使机器能够按照人的意志进行操作，把人类从繁重或危险的劳动中解脱出来。据预测，语音识别将成为继键盘和鼠标器之后，人机交互界面革命中的又一次飞跃。语音信号处理中的端点检测技术是指从包含语音的一段信号中确定出语音的起始点及结束点，有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性，而且能排除无声段的噪声干扰，从而使后续的识别性能得以较大提高。语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非常重的作用，直接影响着后续工作的正确率。 1作者简介：武光利 (1981一)，男，研究生，主要研究方向：语音识别。 2于洪志，教授、博导，研究方向为多文种信息处理、中文信息项目资助：本项目得到中国科学院自动化研究所模式识别国家重点实验室开放课题“安多藏语语音合成文本分析基础研究”资助 124 2.数据源本文所用的数据源都是从 WAVE 文件中得到，WAVE 文件作为多媒体中使用的声波文件格式之一，它是以 RIFF 格式为标准的。RIFF 是英文 Resource Interchange File Format 的缩写，每个WAVE 文件的头四个字节便是“RIFF”。WAVE 文件由文件头和数据体两大部分组成。其中文件头又分为 RIFF ／WAV 文件标识段和声音数据格式说明段两部分。常见的声音文件主要有两种，分别对应于单声道（11.025KHz 采样率、 8Bit 的采样值）和双声道（44.1KHz 采样率、16Bit 的采样值）。 WAVE 文件至少包括 3 个块：RIFF 块、FMT 块、DATA 块，其中 RIFF 是 F