- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉英双语库自动分段对齐研究
10009825200011( 11) 154707 ○c 2000 Jou rn a l o f So ftw are 软 件 学 报 V o l. 11, N o. 11
汉英双语库自动分段对齐研究
王 斌, 刘 群, 张 祥
( 中国科学院 计算技术研究所, 北京 100080)
: { , }@ . . .
E m a il w angb in liu qun m tgroup ict ac cn
: . . .
h t tp www ict ac cn
摘要: 双语库对齐是自然语言处理研究的重要课题之一. 其中, 双语库段落对齐是指找出源文和译文中对应的
翻译段落的对齐过程. 它上承篇章对齐, 下接句子对齐, 在整个双语库的对齐中起着承上启下的重要作用. 但
由于种种原因, 双语库段落对齐在当今研究中没有受到应有的重视. 直接进行通用的段落 自动对齐具有相当
的难度, 也不必要, 鉴于此, 提出将段落对齐转化成分段对齐进行实现. 通过汉英词汇对之间的特征比较, 首先
找到可以用于汉英双语库分段的锚点词汇对, 在此基础上, 通过锚点词所在句子的匹配获得锚点句子对来进
行分段. 实验结果表明, 该方法具有良好的使用价值, 可以用于其他语言对的对齐.
关键词: 自然语言处理; 双语库; 对齐; 分段; 锚点
中图法分类号: T P 39 1 文献标识码: A
近年来, 语料库语言学的兴起是计算语言学中的重要事件. 语料库以其覆盖面广、语料真实、信息丰富而为
( )
计算机 自然语言处理提供了强有力的支持. 双语语料库 以下简称双语库 是一种特殊形式的语料库, 它同时含
有两种语言的对译语料信息, 因此, 加工后的双语库与单一的语料库相比, 更具有两种语言之间的匹配信息, 它
可 以用于基于统计 的机器翻译 ( stat ist ics b a sed m ach in e t ran slat ion , 简称 SBM T ) [ 1]、基于实例 的机器翻译
( ) [2 ] [3 ]
exam p le b a sed m ach in e t ran slat ion , 简称 EBM T , 亦称m em o ry b a sed m ach in e t ran slat ion 、机助人译 、双语
[4, 5 ] [6 ] [7 ]
词典和术语库的建立 、翻译知识的抽取 、词义排歧 等多种应用领域, 具有很高的利用价值.
目前, 基于双语库的工作主要包括两个方面: ( 1) 对双语库的加工, 主要是对齐( a lignm en t) , 即找出双语文
[8~ 12 ] ( ) [ 1~ 7 ]
本之间的各级对译关系 ; 2 从已经对齐的语料库中抽取知识并加以利用 . 双语库的对齐单位包括篇
章、段落、句子、短语、单词等.
所谓段落对齐就是找出源文中的段落在译文中对应的翻译段落. 由于段落上承篇章, 下接句子, 因此段落对
齐也起着从篇章对齐到句子对齐的承上启下作用. 然而, 在当今双语文本对齐的研究中, 段落 自动对齐有意无意
地受到了冷落. 这种冷落主要表现为: ( 1) 几乎没有以段落对齐为主题的研究论文; (2) 很多学者在进行双语文
本对齐的研究时, 都假定双语文本已经做到了段落一级的对齐, 而段落对齐的实现讨论得很少[9~ 11] ; (3)
文档评论(0)