基于短语的统计机器翻译.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
             山/ 西/ 财/ 经/ 大/ 学/ 学/ 报               2008 年 4 月 Journal of ShanXi Finance and Economic s Uni ver sity Apr . ,2008 第 30 卷 第 1 期 Vol . 30 No . 1 基 于 短 语 的 统 计 机 器 翻 译 李  枫 (太原警官职业学院 计算机教研室 ,山西 太原030032)   [ 摘  要]对基于短语的统计机器翻译从系统框架 、基于短语的翻译原理 、翻译侯选 项 、核心算法等几个 方面进行了阐述 , 并分别从合并假设 、堆栈搜索 、未来代价估计 、N - best 列表生成等四个方面对核心算法着重进行了论述 。 [ 关键词]机器翻译 ;核心算法 ;堆栈搜索   一 、系统框架 一个基于短语的统计机器翻 译系统是在训练好的模 型 基础上通过解码 器完成翻译核 心工作的 。对 于输入端的英 文句子 ,首先到翻译模型中寻找所有可能的翻 译候选项并全 部读到内存中 ,然 后结合语 言模型搜索得 到最佳翻译 结果 。 整个翻译系统如图 1 所示 。 图 3  翻译候选项   如在图 3 中 ,翻译候选项“一束花”中携带的信息包括 a 、 flowers 、一束花 、p ( 一束花 a bu nch of flowers) 。 四、核心算法 基于短语统计机器翻译解码器采 用堆栈搜索算法 , 目标 语言句子以状态扩展的形式 自左至右生成 。每个状态中有 源语言信息 S、有 目标语言信息 T、还有翻译概率 P ,状态扩展 如图4 所示 。 图 1 英汉统计机器翻译系统 二 、基于短语的翻译 基于短语进行翻译时 ,源语言句子以短语 为单位进行切 分 ,每一个短语被翻译 成相对 应的 目标语 言短语 , 目标语 言 短语经重排序后生成较符合语法的 目标语言句子 ,如 图2 所 示 。不过这里所提到的短语不是语法意义上的短语 ,只是相 邻的词组 。 图 4  状态扩展图 初始状态是一个空状态 ,源 语言 串中的短语还 没有被 翻译 , 目标语言生成串为空 ,翻译概率初始值为 1 。从初 始状 态开始扩展 ,可以假设第一次状态扩展是源语言词“she ”被翻 译为“她”,翻译概率为 0 .534 ,在“she ”所对应的源语言位置处 图2  短语翻译示例 标记为“3 ”,在图中显示的 S 的状况是“3 ”,表示源 语言 三 、翻译候选项 句子中第一个位置的词 已经被翻译 。也可以假设第一次状 给定一个源语言句子 ,对这个句子进行短语划分有很 多

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档