计算机语音实时翻译系统原理及实现方法.docVIP

计算机语音实时翻译系统原理及实现方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机语音实时翻译系统原理及实现方法

计算机语音实时翻译系统原理及实现方法摘 要: 本文从实际用户的需求出发,介绍计算机实时翻译系统的原理和目前技术状态,提出一种基于现有成熟技术,实现语音实时翻译系统的方法。 关键词: 计算机 语音实时翻译 系统原理 实现方法 1.研究背景和现有需求 随着人们日益增长的信息需求,现有的媒体模式已经不能完全满足人们对国际信息的需要。但是由于语言的限制,很多国外的信息不能及时被翻译成汉语,现有的人工翻译手段无法满足大量信息的翻译和传输。尽管我们可以通过Google翻译网站等手工实现文字翻译,把外语文字信息翻译成汉语,但国外媒体的大多数音像资料的含义却无法在第一时间内被国内的广大群众获知。外国媒体的电影、电视剧也只能在人工手段下逐句翻译成汉语。例如:现在世界性视频网站上,有超过2亿个视频(中国行业研究院今年1月提供的数据),而中文视频可能仅有万分之一以下;在1TV.ru上播放的俄罗斯新闻和视频节目国内也很少有人能看懂。我们不可能依靠人工手段在第一时间内将这些新闻和视频节目全部翻译成汉语,因此需要利用计算机技术实现语音实时翻译。 要实现语音事实翻译,需要解决两个技术问题:语音识别和文字翻译,目前使用计算机技术对这两个问题有一些解决方案。 2.语音识别和文字翻译 2.1语音识别 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能,等等。语音识别的方法有三种:基于语音学和声学的方法、模板匹配的方法,以及利用人工神经网络的方法。 2.1.1基于语音学和声学的方法:基于语音学和声学的方法即基于声道模型和语音知识的方法。该方法起步较早,在语音识别技术提出的开始就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。 2.1.2模板匹配的方法:模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。 2.1.3神经网络的方法:利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。 2.2文字翻译 2.2.1基于统计的翻译方法。最有影响的是IBM公司的P.Brown提出的基于统计的机器翻译SBMT(Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第一届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法。 2.2.2基于实例的防御方法。另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出基于实例的机器翻译EBMT(Example Based Machine Translation),并于1984年发表基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译)。 目前在计算机领域已经有很多研究成果,比如,IBM的语音识别技术已经在实际生产、生活中应用,但是由于IBM的speech to text(语音到文字)没有开放的接口,外部人员无法在它的基础上做扩展开发。而Google不仅在语音识别和文字翻译方面有实际并成熟的产品(Google翻译网站和Google语音识别网站),而且它把接口公开出来,即外部人员可以通过其API(应用程序接口)把Google技术应用得到其他领域,比如实时语音翻译。下面具体介绍怎样利用Google的现有技术实现实时语音翻译。 3.关键技术点 对应语音的实时翻译,基本思路有以下几点。 3.1在计算机上定时(如每隔2s)录音,把正在播放的声音抓成flac格式(Google API支持的码率)的文件。目前大部分声卡不支持采集计算机播放出来的声音,所以为了解决这个问题,有两种方法,硬件和软件的方法。硬件的方法是用一根线把音频输出接到音频输入。软件的方法是需要开发一个虚拟的声卡驱动程序,它把播放出来的声音定性到虚拟声卡上,从而实现计算机录音的功能。这两种方法不属于本文的重点,所以不在这里详细描述。 3.2用Google API把语音转化成文字。通过POST Http请求来实现该功能,具体如下。 【URL】 http://www.省略/speech-api/v1/recognize?xjerr=1 client=chromiumlang=zh-CN 【方式】POST

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档