语音识别错误对翻译性能的影响分析.docxVIP

语音识别错误对翻译性能的影响分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
? ? 语音识别错误对翻译性能的影响分析 ? ? 田新宇,李军辉 (苏州大学计算机科学与技术学院,江苏 苏州 215006) 随着科技的发展,语音识别技术也在逐渐趋于成熟[1],不少学者都基于语音识别技术来拓展或延伸相关的研究方向,重点集中在自然语言处理、实时语音识别以及语音识别鲁棒性等方面[2].在自然语言处理领域中,语音识别结果可作为机器翻译源语言的一种形式[3],用于让计算机能够听懂人类说的话[4],即让机器接收人的语音输入,理解其语言类型和目的,并作出相应的反应,如按需做出记录、查询或相应的其他操作[5]. 在汉语的语音识别过程中,由于机器识别本身的局限性,不可避免地会出现一些语音识别错误[6].其与环境噪声、说话人的人为因素(如发音、用词、造句等的规范性)共同作用,影响同声传译的翻译结果.以往不少学者对语音识别错误的来源、种类及其对某类词性词语的翻译所产生的影响进行了研究.赵晓瑞[7]提出的不规范语言翻译策略分析了各种不规范语言的来源,指出在发音、拼写、句法、修辞等方面,英语和汉语都具有一套完整的语言规范体系.在发音上,不规范语言的形成来自于很多现象,例如省略读音、遗漏音调、吞音等现象;在句法上,不规范语言一般不符合语法规定,例如句子成分缺失等;在词语方面,不规范语言会夹杂着地域色彩,即方言土语等.这也解释了语音识别结果中错误词汇产生的原因.李萌[8]以信息论为依托,以《哈利·波特》中专有名词翻译为例,对错误词汇在翻译过程中信息传递的影响进行了分析.周美玲[9]通过对机器音译,即人名、地名、机构名和组织名等专有名词的错误分析,总结了基于语音的机器音译的不足,提出了两种机器音译的方法:基于字形的音译方法和机器翻译的方法.然而,以上研究均未系统地分析语音识别结果中易出现的错误词性和错误类型,以及语音识别错误对翻译产生的影响. 针对以上问题,本文基于NIST汉英实验,以Vaswani等[10]提出的Transformer模型为基础架构,利用NIST汉英实验中的训练集进行模型训练,采用讯飞语音识别系统获取NIST汉英实验测试集的语音识别结果作为测试集进行测试.实验通过对比标准测试集和语音识别结果构成测试集的翻译结果,对常见语音识别错误的类型,以及错误词汇对其他词语翻译的影响进行了分析讨论,希望以此为提高面向语音识别错误的机器翻译鲁棒性研究提供参考. 1 数据与方法 1.1 数据来源 本文使用汉英翻译经常使用的NIST02和NIST03两个测试集.通过两位朗读者朗读这两个测试集得到语音音频,音频文件格式为M4A,再调用“讯飞听见”在线语音转文字软件获得语音识别的结果,并以此作为含语音识别错误的中文数据集.表1给出了两个测试集的数据统计,分词均采用结巴分词(https:∥/fxsjy/jieba),并通过计算基于字的字词错误率(word error rate,WER)来衡量有错误和无错误数据的差异. 1.2 分析内容和方法 本文以Transformer[10]为基础架构进行汉英翻译模型的训练.通过对训练过程中保留的所有模型进行翻译测试,评估比较不同模型应用在开发集(即源端无错误的NIST06数据集)上的双语互译评估(BLEU)[11]值,挑选出性能最佳的模型用于本文实验.分析内容和分析方法如下. 给定一个无错误的句子S={s1,s2,…,sn},共包含n个单词,以及其语音识别版本T={t1,t2,…,tm},共包含m个单词,为确定S中哪些词出现语音识别错误,本文通过以下步骤来进行原词-错误词对的提取. 1) 同时遍历S和T中的每一个单词(标点及特殊符号除外),若当前单词si和tj相同,则继续向后遍历,否则转到2). 2) 记录S和T当前错误起始词汇的下标p和q,并找到S和T中距离错误起始词汇最近的相同单词,记录其下标分别为x和y,即为当前错误结束词汇的下标.转到3). 3) 在S中提取出O={sp,…,sx-1}的单词组成当前错误的原词组,在T中提取出N={sq,…,sy-1}的单词组成当前错误词组,将二者结合为原词-错误词对(O,N).转到1). 例如原句为:“以公务员所共同遵循的行为规范、至理名言为书法作品创作内容,倡导公务员廉洁奉公之风.”错误句为:“以公务员所共同遵循的行为规范、治理名言为书法作品创作内容,倡导公务员廉洁奉公指望.”该句所提取出的原词-错误词对为:(“至理名言”“治理名言”)和(“之风”“指望”). 本文首先分析哪些词容易引起语音识别错误,然后再从多个角度分析语音识别错误对机器翻译性能的影响.分析的内容包括错误词性分析、错误类型分析、语音识别错误对翻译性能的影响分析,以及错误词对其他词翻译的影响分析等. 错误词性分析.分析语音识别错误中各词性的占比. 错误类型分析.常见的语音识别错误包括替换、缺词

文档评论(0)

科技之佳文库 + 关注
官方认证
文档贡献者

科技赋能未来,创新改变生活!

版权声明书
用户编号:8131073104000017
认证主体重庆有云时代科技有限公司
IP属地浙江
统一社会信用代码/组织机构代码
9150010832176858X3

1亿VIP精品文档

相关文档