- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lIIIJl
lIIIJl l IIInl g/llll HI IllI
Y3020332
University of Science and Technology of China
A dissertation for master’S degree
Noise Robust Speech Recognition Research based on Regression Deep Neural Network
AuthOF:
Speciality:
Finished Time: 蠹藤
Supervisor: 五垫
万方数据
中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除己特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰 写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了 明确的说明。
作者签名:过建熊 签字日期:塑遁翱塾旦
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入
《中国学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的 内容相一致。
保密的学位论文在解密后也遵守此规定。
舾公开 口保密——年
作者签名: 导师签名
签字日期:丕丛生!旦垫曼 签字日期:三≥型丝堑 ·上:j)
万方数据
摘要摘要
摘要
摘要
随着移动互联网时代的快速发展,语音识别应用变得越来越普及,语音交 互由于其便捷性也逐渐被大众所接受。但是语音识别过程中环境噪声以及不同 设备的信道多样性制约着自动语音识别系统的大规模应用。近年来,深度神经 网络(DccpNeural Network,DNN)被成功应用到自动语音识别系统中,基于大 数据训练,DNN相对于传统方法有着更好的鲁棒性,但是DNN在噪声环境下 仍面临着识别率差的问题。而且,由于深度神经网络模型的特点,许多传统的 抗噪方法很难被直接使用。为此,本文主要做了如下工作:
(一)本文在800小时的大规模训练数据下探索不同回归神经网络结构的
建模能力,包括输入输出结构,DNN.Autoencoder结构,激活函数选择等,通 过实验对比得到最优的神经网络结构。该方法通过DNN强大的非线性建模能力 学习噪声语音特征与干净语音特征的映射关系,然后将处理后的带躁语音输入 至语音识别系统中进行语音识别从而提高语音识别率。本文的最优网络结构将 噪声语音的词错误率从23.8%降低到18.2%,性能相对提升23.5%。
(二)本文首次将混合密度网络(Mixture Density Network,MDN)应用到 抗噪语音识别。混合密度网络将目标特征拟合为混合高斯分布,通过最大似然 函数优化神经网络,实验表明,MDN能够带来相对DNN有5.0%的词错误率 下降,相对DNN有更强的拟合能力。
(三)本文将回归神经网络应用到了远场语音识别以及频谱扩宽中。远场 语音主要为卷积噪声,本文实验表明回归神经网络对远程语音建模能够带来识 别性能相对55.5%词错误率下降。同时若将回归神经网络与后端声学模型进行 匹配性训练则又能够带来相对4.9%的性能提升。同时本文将回归神经网络应用 在频谱扩宽领域中,将8千赫兹语音特征通过回归神经网络映射成16千赫兹语 音特征,并对伪16千赫兹特征输入到16千赫兹语音识别系统中进行语音识别, 实验表明,该方法可使得8k识别率性能降低在5%以下的可容忍范围内,而训 练资源可减少一半。
关键词: 回归神经网络,语音识别抗噪,混合神经网络,大规模连续语音识
别,频谱扩宽
万方数据
ABSTRACTABSTRACT
ABSTRACT
ABSTRACT
With the rapid development of mobile Internet era,voice recognition applications become increasingly popular.Due to its easy operation,voice interaction is gradually accepted by the public.However,during the speech recognition process,envlronmen- tal noise and channel diversity of different dev
您可能关注的文档
- 基于合意空间的模糊向量空间与合意集的范畴-应用数学专业论文.docx
- 基于合作竞争的我国物流市场整合模式研究-物流工程专业论文.docx
- 基于合同能源管理高校节电项目风险管理研究-土木工程建造与管理专业论文.docx
- 基于合成的多核CPU软错误测试加速研究-计算机应用技术专业论文.docx
- 基于合理化工程思想的汽车冲压模具结构设计的研究与应用研究-机械制造及其自动化专业论文.docx
- 基于合理城市空间模式的杭州适度人口规模研究-城市规划与设计专业论文.docx
- 基于合约原理的农村土地经营权流转路径分析-产业经济学专业论文.docx
- 基于合约检查的构件化软件测试的研究-计算机应用技术专业论文.docx
- 基于合理支撑研究的腰垫设计-设计艺术学专业论文.docx
- 基于合成空间理论的反语认知研究-英语语言文学专业论文.docx
最近下载
- 城市轨道交通AFC系统65课件.pptx VIP
- 2025年云南省交通投资建设集团有限公司校园招聘笔试备考题库及答案解析.docx VIP
- 建筑工地基孔肯雅热防控和应急方案.docx VIP
- 第3章 知觉和模式识别.ppt VIP
- 公开课饮酒其五省公开课一等奖全国示范课微课金奖课件.pptx VIP
- 第二单元 6~10的认识和加、减法 单元教学设计 2025人教版数学一年级上册.pdf
- 钢筋混凝土管管道吊装方案.doc VIP
- 中医操作评分标准.pdf VIP
- 5.1 探究过氧化钠与二氧化硫的反应 课件 高一下学期化学人教版(2019)必修第二册.pptx VIP
- 农广校说课大赛.pptx VIP
文档评论(0)