38-命名实体翻译分析与研究.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
命名实体翻译分析与研究 报告人:陈钰枫 中科院自动化所中文信息处理组 2006.10.17 Outline NE(Named Entity)翻译概述 NE对齐 组织机构名的翻译研究 参考文献 一、NE翻译概述 一、NE翻译概述 采用各种机器翻译方法的缺陷: 翻译结果不够规范 NE中的一些词义是特定的,例如: 风陵渡——Fenglingdu —— wind comb cross (×) 音译问题 一、NE翻译概述 采用NE对齐建立词典进行NE翻译的缺陷: 不够灵活 覆盖面取决于双语语料库的大小 二、NE对齐 二、NE对齐 NE对齐与NE识别的关系 通常NE对齐先要分别在两种语言中进行NE识别,然后在识别结果的基础上产生候选翻译对,再过滤得到对齐结果; 识别和对齐结合在一起进行,或只进行单语识别; 两个过程交替迭代进行的,以得到较好的对齐结果和较高的识别精度。 二、NE对齐 NE对齐和短语对齐的关系 NE有具体,严格的边界,和NE识别的关系 NE对齐一般是完整,不间断 共同问题: 如何从词对位实现NE或短语的对位 二、NE对齐 NE对齐和分词的关系 对于汉语来说,识别和对齐之前往往需要进行词切分; 不进行切分,通过窗口移动直接在句子中得到候选翻译项 二、NE对齐 NE对齐的两个过程: (单语或双语)进行NE识别后,从平行双语句子对中抽取NE候选翻译对 将候选翻译对进行过滤,得到最优的NE对齐 二、NE对齐 在过程1中分词和NE识别可能引入的错误: Segmentation error Untagged Partially tagged Tagged with other words as one NE 二、NE对齐 解决方法: 用单语NE识别代替双语NE识别 滑动窗(An open-end NE alignment window) 基于双语NE识别:将已标注为NE的词作为中心,窗口向两边扩展 基于单语NE识别:利用IBM模型得到的翻译词表来确定“锚点”。然后以这些“锚点”为中心,在一定长度的词窗范围内选取词或词组作为候选命名实体。 二、NE对齐 过滤候选翻译对(过程2): 采用多特征融合的方法,所以一般利用多特征对齐模型或者最大熵模型等 可用的特征模型: Translation Model Transliteration Model Tagging Model Co-occurrence Model Distortion Model Abbreviation handling …… 三、组织机构名的翻译研究 机构名(ON, Organization name)特点: 1、ON的结构最复杂,其中可能包含人名,地名等; 2、通过NE对齐建立翻译词典的方法比较适合人名、地名的翻译,而对于粒度大,结构易变的ON,还要抓住其本质结构; 例如:中国国际对外科技交流中心 闽台新闻交流联谊会 BNF形式: ON ? {[location name] [organization name] [ordinal number] [person name] [organization type] [other modifier]}* the organization appellation 三、组织机构名的翻译研究 行政管理机构名 主要是从属于国家或地方级别的公共机构,例如国家部门、省市政府、大学和协会等。这类机构名的组成比较规则,并且它的组成词大部分是已登录词。 企业机构名 主要是私有的带有盈利性质的机构,例如酒店、银行、公司等,这类机构名多以地名开头,中间加以企业字号,例如“吉百利”等,大部分是未登录词。 三、组织机构名的翻译研究 行政管理机构名和企业机构名比较(LDC2005T34) 三、组织机构名的翻译研究 行政管理机构名和企业机构名比较: 行政管理机构名特征:1、有比较强的组成结构信息;2、地名,人名涉及音译,通过词典可以大部分解决;翻译的重点在结构 企业机构名特征:1、绝大部分按顺序翻译,即使有次序调整,只是前后调换一次;例如:中国银行/bank of china/ 2、企业商标名以音译为主,约定俗成,音译缺乏规律性,例如:吉百利/cadbury/;3、词尾信息单一:以“公司”结尾占83%。翻译的重点在于音译。采用NE对齐方法实现翻译可行 三、组织机构名的翻译研究 行政管理机构名对位结果分析 Society(1) fo

文档评论(0)

小玉儿 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档