- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山/ 西/ 财/ 经/ 大/ 学/ 学/ 报
2008 年 4 月 Journal of ShanXi Finance and Economic s Uni ver sity Apr . ,2008
第 30 卷 第 1 期 Vol . 30 No . 1
基 于 短 语 的 统 计 机 器 翻 译
李 枫
(太原警官职业学院 计算机教研室 ,山西 太原030032)
[ 摘 要]对基于短语的统计机器翻译从系统框架 、基于短语的翻译原理 、翻译侯选 项 、核心算法等几个 方面进行了阐述 ,
并分别从合并假设 、堆栈搜索 、未来代价估计 、N - best 列表生成等四个方面对核心算法着重进行了论述 。
[ 关键词]机器翻译 ;核心算法 ;堆栈搜索
一 、系统框架
一个基于短语的统计机器翻 译系统是在训练好的模 型
基础上通过解码 器完成翻译核 心工作的 。对 于输入端的英
文句子 ,首先到翻译模型中寻找所有可能的翻 译候选项并全
部读到内存中 ,然 后结合语 言模型搜索得 到最佳翻译 结果 。
整个翻译系统如图 1 所示 。
图 3 翻译候选项
如在图 3 中 ,翻译候选项“一束花”中携带的信息包括 a 、
flowers 、一束花 、p ( 一束花 a bu nch of flowers) 。
四、核心算法
基于短语统计机器翻译解码器采 用堆栈搜索算法 , 目标
语言句子以状态扩展的形式 自左至右生成 。每个状态中有
源语言信息 S、有 目标语言信息 T、还有翻译概率 P ,状态扩展
如图4 所示 。
图 1 英汉统计机器翻译系统
二 、基于短语的翻译
基于短语进行翻译时 ,源语言句子以短语 为单位进行切
分 ,每一个短语被翻译 成相对 应的 目标语 言短语 , 目标语 言
短语经重排序后生成较符合语法的 目标语言句子 ,如 图2 所
示 。不过这里所提到的短语不是语法意义上的短语 ,只是相
邻的词组 。
图 4 状态扩展图
初始状态是一个空状态 ,源 语言 串中的短语还 没有被
翻译 , 目标语言生成串为空 ,翻译概率初始值为 1 。从初 始状
态开始扩展 ,可以假设第一次状态扩展是源语言词“she ”被翻
译为“她”,翻译概率为 0 .534 ,在“she ”所对应的源语言位置处
图2 短语翻译示例 标记为“3 ”,在图中显示的 S 的状况是“3 ”,表示源 语言
三 、翻译候选项 句子中第一个位置的词 已经被翻译 。也可以假设第一次状
给定一个源语言句子 ,对这个句子进行短语划分有很 多
文档评论(0)