- 4
- 0
- 约1.51万字
- 约 26页
- 2017-02-03 发布于辽宁
- 举报
基于时域特征的语音自动分割算法实现大学毕业设计
引言
众所周知,语言是人们之间彼此交流沟通的最方便最快捷的手段之一。在如今这个信息时代中用数字化的方式来实施语音的传输、储存、识别、合成、增强是整个数字通信系统中最为关键的要素之一[1]。
连续语音的自动分割是我们在进行语音信号处理的过程中遇到的首个需要解决的复杂难点。之所以要进行语音的自动分割,就是为了减少语音识别的计算量并提高语音识别系统的识别精度。我们在对语音进行过分割之后就可以将语音段和噪声段分离开来,这样后续再进行语音识别的时候识别系统只需要对语音段进行检测。如果语音自动分割出现错误,那么语音信号的识别也就无法实现。这在许多语音处理领域中是一个十分基本的问题。特别是在进行独立的单个文字自动识别的时候,能否准确的找到每个单字的语音信号范围,以及能否将声母、韵母分割开都是十分重要的。
语音信号分割的准确与否对于一个完整的语音识别系统具有重要意义,不仅算法会影响其最终实现和使用效果,最终结果在很大程度上受外界环境的影响是非常大的。因为输入信号的时候基本不可能是纯粹的语音输入,多多少少都会带有一定的背景噪声。研究人员通过实验对比发现,语音自动分割的准确性会直接影响到语音识别的结果,因为如果分割算法对于语音和噪声的判断出现错误那么之后对所谓语音段进行的识别也就变得毫无意义。因此一个优秀的语音自动分割结果就意味着语音识别过程的一个好的开始。进行自动分割为了达成的目的就是,在各种各样的应用环境下的信号流中将人声段和噪声段分开,并进一步确定语音信号的起始点及结束点[2]。
1948年香农(C.E.Shannon)把关于熵的概念引入到信息论中,把熵看作是一个随机事件的不确定性的度量[3]。熵的大小和一个系统的有序度直接相关,有序度越高,熵就越低;反之,一个系统随机性越高,其熵就越高。本课题是要提出一种相对简便并具有一定准确率的语音自动分割算法。综合对比各类算法后决定采用一种子带谱熵的改良算法来进行语音分割。算法的总体流程主要包括输入语音文件、进行预处理、选择合适参数、分析确定阈值、检测语音信号端点。该算法在传统谱熵法的基础上进行了改进,提出了一些经验性的约束,设定了归一化谱概率密度的上限,并引入了子带谱熵的思想从而进一步提高了语音自动分割的准确性[12]。
概述
2.1 课题背景
语音自动分割技术在语音识别系统中占有重要地位,是整个系统的重要组成部分。所谓语音自动分割技术,就是通过计算机的智能识别将人说话的音节部分和说话人所处的背景噪声相分离,从而为下一步进行的语音识别打好基础。如果对于语音的分割不准确,语音信号识别就会因为音节错误而无法实现或出现大量错误。在实际工程应用中,我们需要在进行语音内容识别之前先对输入系统的连续语音信号进行预处理,将每个音节的起始点和终止点划分出来。这样识别系统才能有效的针对每个音节分别进行识别操作,不会盲目识别噪声信号的内容,使得语音识别系统能够尽可能的做到对语音信号实时、准确的判断。
随着数字信号处理技术和计算机性能的不断发展,一些具有自适应、人工智能特性的语音识别系统已经可以在不是特别复杂的环境下对语音信号做出较为精确的判断。随着市场需求的不断增加,各研发机构在相关硬件和软件配套设施的投入上越来越大,各类高鲁棒性的新型算法正不断走进我们的日常生活。虽然我们在日常使用中会发现内置于各类终端中的语音识别功能并不是十分好用,很多时候都会出现错误,但我们仍然应该对语音识别技术为我们生活提供的方便表示感谢,并对该领域技术的发展持有乐观态度。语音识别技术的市场应用还处于初期阶段,为了使该技术的市场化应用更为便利,目前需要为语音输入通道硬件和软件的基本引擎和平台建立相应的规范和标准,这样一来语音识别技术就可以通过统一规范的结构集成到各种各样需要语音功能的软件、操作系统中去,从而改变电子产品传统的人机交互模式,实现大量的语音控制。随着语音电子产品的不断发展,语音识别技术为了适应市场的现实需求,其在研究和开发中还有着大量的工作要做。
2.2 语音信号简述
通过对人们讲话语音在时域和频域两个方面进行研究分析,发现无论人们的年龄处于哪个阶段,语音的频率分布都是相对密集的,大部分都集中分布在300~3400Hz的频率范围内。基于这一特征,研究人员可以在对语音进行识别之前先将其通过一个带通滤波器,将处于300~3400Hz的语音信号分离出来得到所需要的频谱,这样的初步筛选将有利于提高语音自动分割算法和语音识别系统的准确性以及运行效率。然后我们需要对选定频谱范围内的连续语音信号进行采样,使其变成计算机能够处理的离散时域的语音信号,采样率通常取8kHz左右,也可以根据具体情况进行相应的调节。当实验或应用对采样出来的信号有更为苛刻的要求时,我们就可以通过提高语音信号的采样率或者扩大语音信号的采样范围等手段提供更为精确、更为全
您可能关注的文档
- 基于php技术的校园网站的设计与实现大学毕业设计.doc
- 基于pic单片机的电冰箱控制系统设计大学毕业设计.doc
- 基于plc变频器触摸屏的隧道通风系统设计大学毕业设计.doc
- 基于plc彩灯广告控制器设计大学毕业设计.doc
- 基于linux下的图像传输大学毕业设计.doc
- 基于plc的搬运机械手设计机电一体化大学毕业设计.doc
- 基于plc的玻璃造型生产线控制系统的设计大学毕业设计.doc
- 基于plc的高楼恒压供水系统设计大学毕业设计.doc
- 基于plc的机械手系统控制-电气自动化大学毕业设计.doc
- 基于plc的龙门刨床控制系统设计大学毕业设计.doc
- 2026“梦想靠岸”招商银行南京分行春季校园招聘备考题库及答案详解(名校卷).docx
- 2025年交付测试题及答案.docx
- 2026上半年安徽事业单位联考五河县招聘20人备考题库带答案详解(突破训练).docx
- 2026上半年云南开放大学招聘管理人员1人备考题库带答案详解(研优卷).docx
- 2026“梦想靠岸”招商银行南京分行春季校园招聘备考题库带答案详解(轻巧夺冠).docx
- 《2025年[江西]事业单位招聘考试综合类公共基础知识真题试卷(精选题库.docx
- 吉林省延边朝鲜族自治州《职业能力测验》国考真题.docx
- 注射类医美器械项目企业运营管理计划.docx
- 中国邮政储蓄银行招聘考试真题精彩试题库04501.docx
- 企业新年退伍军人座谈会策划PPT方案【PPT文档】.pptx
最近下载
- 初中英语衡水体作文范文10篇.pdf VIP
- 基层工会预决算填报操作手册(2024.02).pdf
- 品胜加盟条件要领.pdf VIP
- 2026年党支部在改作风树新风等“对照5个方面”存在的问题及整改措施普通党员对照检查材料(五个对照)2篇例文.docx VIP
- 建筑公司员工手册(完整版).docx VIP
- 外研新交际英语(2024)新教材小学一年级英语下册Unit 1 课时3教学设计.docx VIP
- (正式版)DB12∕T 1361-2024 《地热尾水回灌技术规程》.pdf VIP
- 2026年教科版三年级科学下册(全册)教学设计(附教材目录).pdf VIP
- GB_T 25849-2024 移动式升降工作平台 设计、计算、安全要求和试验方法.pdf VIP
- 安全生产监管培训课件.pptx VIP
原创力文档

文档评论(0)