- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于模板的统计(?)翻译模型研究及汉英机器翻译系统实现 刘群 liuqun@ 目录 引言 综述 研究思路 实验方案 总结 引言 本文的主要工作 提出一个基于模板的统计翻译模型 给出一个汉英机器翻译系统的实现方案 本文的主要创新 给出了转换模板的定义及模板抽取算法 提出模板角色概念并给出三种统计翻译模型 给出该模型的参数估计算法 目录 引言 综述 机器翻译的范式 统计机器翻译综述(三种主要的方法) 统计机器翻译小结 研究思路 实验方案 总结 机器翻译的范式 统计机器翻译方法的界定 区别于规则方法: 利用语料库作为知识来源 无需人工编写规则 区别于实例方法或模板方法: 建立完整的统计模型 必须为整个翻译过程,而不是其中某个局部,建立统计模型 统计机器翻译的分类 基于平行概率语法的统计机器翻译模型 基于信源信道思想的统计机器翻译模型 IBM的Peter Brown等人首先提出 目前影响最大 几乎成为统计机器翻译的同义词 基于最大熵的统计机器翻译模型 源于基于特征的自然语言理解 Och提出,获ACL2002最佳论文 统计机器翻译的优缺点 优点 无需人工编写规则,利用语料库直接训练得到机器翻译系统;(但可以使用语言资源) 系统开发周期短; 鲁棒性好; 译文质量好; 缺点 时空开销大; 数据稀疏问题严重; 对语料库依赖性强; 算法研究不成熟。 基于平行概率语法的统计机器翻译模型 基本思想 两种语言建立一套(?)平行的语法规则, 规则一一对应 两套(?)规则服从同样的概率分布 句法分析的过程决定了生成的过程 主要模型 Alshawi的基于Head Transducer的MT模型 吴德恺的Inverse Transduction Grammar(ITG) Takeda的Pattern-based CFG for MT Head Transducer MT (1) Head Transducer(中心词转录机)是一种Definite State Automata(有限状态自动机) 与一般的有限状态识别器的区别: 每一条边上不仅有输入,而且有输出; 不是从左至右输入,而是从中心词往两边输入 Head Transducer MT(2) Head Transducer MT(3) 所有的语言知识(词典、规则)都表现为Head Transducer; Head Transducer可以嵌套:一个Head Transducer的边是另一个的识别结果; 纯统计的训练方法;对齐的结果是依存树:不使用词性和短语类标记; Chart句法分析器。 Inversion Transduction Grammar(1) 比赛星期三开始。 The game will start on Wednesday。 Inversion Transduction Grammar(2) 规则形式: A → [ B C ] A → B C A → x/y 产生源语言和目标语言串分别为: BC BC:词序相同 BC CB:词序交换 x y:词典 Pattern-based CFG for MT (1) 每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成; 举例: S:2 → NP:1 岁:MP:2 了 ──────────── S:be → NP:1 be year:NP:2 old Pattern-based CFG for MT (2) 中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词; 链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。 信源-信道模型 S 统计机器翻译基本方程式 P.Brown称上式为统计机器翻译基本方程式 语言模型:P(T) 翻译模型:P(S|T) 语言模型反映“ T 像一个句子”的程度:流利度 翻译模型反映“S像T”的程度:忠实度 联合使用两个模型效果好于单独使用翻译模型,因为后者容易导致一些不好的译文。 语言模型与翻译模型 考虑汉语动词“打”的翻译:有几十种对应的英语词译文: 打人,打饭,打鱼,打毛衣,打猎,打草稿,…… 如果直接采用翻译模型,就需要根据上下文建立复杂的上下文条件概率模型 如果采用信源-信道思想,只要建立简单的翻译模型,可以同样达到目标词语选择的效果: 翻译模型:不考虑上下文,只考虑单词之间的翻译概率 语言模型:根据单词之间的同现选择最好的译文词 统计机器翻译的三个问题 三个问题: 语言模型P(T)的参数估
您可能关注的文档
- 领班主管晋升培训新重点.ppt
- 内控体系建设情况交流重点.ppt
- 领导部分演讲稿(修改好了)重点.ppt
- 内控与风险管理工作情况汇报重点.ppt
- 领导出差事务重点.ppt
- 内蒙古2014年2年级小学语文第5单元第6节课《我选我》重点.ppt
- 领导的风格与组织氛围重点.ppt
- 内蒙古鄂尔多斯市康巴什新区第二中学人教版八年级上册语文:8台阶(共33张)重点.ppt
- 内蒙古维度企业文化重点.ppt
- 领导方法和领导艺术重点.ppt
- 牛津模块七unit1Projectlanguagepoints重点.ppt
- 牛津译林版3bunit2cartoontime重点.ppt
- 牛津译林版高二英语选修7Unit1Livingwithtechnology(共61张)重点.ppt
- 刘旭院士-关于粮食安全与可持续性的思考重点.ppt
- 牛津译林版英语8BUnit6reading郭欢欢(育英外校)(共17张)重点.ppt
- 刘瑛:构建和谐劳动关系,依法维护职工权益重点.ppt
- 牛津英语9AUnit7FilmsWelcometotheunit(新版)牛津版重点.ppt
- 刘玉芳初三暑假备课重点.ppt
- 牛清春--TOD模式的探讨重点.ppt
- 刘长信主任熏蒸重点.ppt
最近下载
- 2025.6.27--12、博微配电网工程设计软件使用手册.pdf VIP
- 阿里巴巴集团股权结构分析.doc VIP
- 锡安长老纪要1-24本.pdf VIP
- YYT 0735.1-2009 麻醉和呼吸设备 湿化人体呼吸气体的热湿交换器(HME) 第1部分:用于最小潮气量为250mL的HME.docx VIP
- 汽车仪表盘图标全解.docx VIP
- 阿里巴巴上市后的股权结构(阿里巴巴最新股权结构).doc VIP
- 氧气、乙炔管理制度.docx VIP
- 上海众辰NZ100变频器用户使用说明书调试手册.pdf
- 伴有肺炎的肺脓肿多学科决策模式中国专家共识(2025版).docx VIP
- fwd系列高静压风机盘管机组-特灵空调.pdf VIP
原创力文档


文档评论(0)