浅析不理想环境下言语听辨.docVIP

下载本文档

10
0
约3.8千字
约 9页
2018-09-05 发布于福建
举报
版权申诉

浅析不理想环境下言语听辨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅析不理想环境下言语听辨

浅析不理想环境下言语听辨　　摘的要：听是人们语言交际的重要方面，听力理解受到越来越多的人们的重视，造成听力理解困难的原因有很多。从心理语言学的角度来说，言语听辨的复杂性主要体现在三个问题上：音段辨认问题、“缺乏不变式”问题和不理想环境下的言语听辨问题。本文主要围绕第三个问题进行深入分析，以期找到合理的解释。　　关键词：不理想环境轨迹模型语音辨识言语听辨　　　　一、前言　　　　世界上有无数种语言，而每一种都处于运动变化中，有人说“语言是最复杂的人类行为”。而作为语言理解的第一步就是语言的感知，包括口头语言的感知和书面语言的感知。由于口头言语的发展总是先于书面语言的发展，口头言语的重要性也要大于书面语言的重要性。说到言语感知的问题，人们总是会不自觉地把它与实际环境相结合。换句话来说，人们会考虑环境因素对言语感知的影响，环境清静，言语感知的效果就好，然而，在很多场合发生的言语感知是处于“不理想环境”之下的。　　所谓的“不理想环境”又叫“非干净语音环境”，通俗来讲就是噪音环境，日常生活中发生的言语听辨大都是在这种环境下进行的。因此，探究言语听辨问题有必要与研究背景环境结合在一起。　　深入这方面的研究有很多现实意义，有助于提高外语学习者的听力理解能力，有助于解决先天性听力困难人群的听力问题，有助于研究机器自动语音辨识问题，从而制造出先进的识别器，应用于商业听写和远程报数等等领域中。　　　　二、“不理想环境下言语听辨”研究涉及的主要问题　　　　“不理想环境下言语听辨” 的研究主要涉及：1. 传到耳朵的声音携带很多信息, 如何区分哪些是有意义的信号，哪些是干扰性的噪音？两者不是一种绝对的关系，可以互相转换，这取决于听者想要获取的那个声音是信号还是噪音。2. 增强有用的信号，降低干扰的噪音，涉及哪些因素？目前研究的最多的是物理声学方面的因素3. 为什么电脑和人在同样的噪音环境下进行语音辨识，分析结果相差很大？这主要是电脑对噪音的稳健性很不理想，误识率太高。以下就这三方面的问题分别展开谈谈: 　　1. 确定输入声音哪些是信号，哪些是噪音，不搞清楚这个问题就没法进行改善言语听辨的研究。信号是指任何我们想要听到的那个声音；噪音是指作为信号背景的那个声音，两者都可以是任意指定的声音（王士元,2006）。比如：我想听某人说话，他的话就是信号；如果这时广播里在放音乐，音乐就是噪音。但如果我想听的是音乐，那人说的话就是噪音。可见，信号和噪音是可以互相转换的相对关系。　　2. 在背景嘈杂的环境下，也就是信噪比较低的情况下，语言信号的响度和清晰度指数偏低，听者很费劲才能捕捉到言语信息。比如打电话，普通电话的信噪比略小于或等于40分贝，信噪比越小，听力效果越差。如果要改善通话质量，可以大声说话，增强信号的强度。　　这是用物理声学的方法来改善听力环境，因为语音和其他声音一样，也是由于空气受到干扰发生波动而产生的。空气的干扰通常是人耳感觉得到的，但要是干扰的幅度太低或频率太高，人的耳朵就感觉不到了（人耳能听到的频率范围是有限的，大致在20~20000赫兹之间，最好的耳朵也就听到九个或十个音阶），感觉不到就是听不到声音，从语言的观点看，就是没有语音。　　3. 仅从物理声学的角度来探讨言语听辨的问题，是很有局限性的。事实上，对听到的语音进行判断时，生理和心理方面所起的作用比物理作用更为复杂。车站等公共场所，输入到耳朵的是很多人说话的声音，如果让电脑去处理这些物理上的输入，电脑很难追踪并理解这些话语。但是，人却能在这样的环境下不怎么费力地交谈。这说明人耳和人脑对它所分析和储存的内容是有选择的，也就是说它选择言语而不是非言语的声音，并在同一时间同一地点内倾向于选择同一个人所说的话。（董燕萍,2005）心理学家认为，一般来说，一个人一次只能记8个不相关的数字，或7个不相关的字母，或6个不相关的单词，留存信息的时间也短，仅约10秒。因此听者必须有选择，把注意力有选择地集中在主要对象、主要内容上。　　从上世纪30年代开始，很多人开始“自动语音辨识(Automatic Speech Recognition)”的研究, 并进行来大量实验，希望能最终制造出一种能听懂人说话的机器，但几十年来收获不大。尤其体现在机器语音识别对噪声的稳健性方面没有实质性的提高。电子计算机在干净语音环境下，听音确实非常准确，但是在噪声环境下，误识率很高。Lippmann（1997）曾作过试验，当信噪比从安静语音环境到10分贝时，人的词误识别率只从0.9%变为1.1%，而机器识别系统的词误识别率却从7.2%升到12.8%。这是因为人听话判断语音的时候不是单靠其中的物理条件，而是还要加进很多有关的成分，比如，用脑子这个成分。