越汉双语句子自动对齐研究初步-清华大学自然语言处理与社会人文.PDF

越汉双语句子自动对齐研究初步-清华大学自然语言处理与社会人文.PDF

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
越汉双语句子自动对齐研究初步 陈坚忠,李 鹏,孙茂松 智能技术与系统国家重点实验室 清华信息科学与技术国家实验室(筹) 清华大学计算机系 北京 100084 E-mail: tktrungna@, pengli09@, sms@ 摘 要:句子级对齐双语语料是自然语言处理的重要资源之一,对于机器翻译、跨语言检索、双语词典 编纂等研究有很大应用价值。关于自动句子对齐的研究主要针对于英语、法语、汉语等语言,据我们所 知,尚未见到针对越南语-汉语的相关研究。本文考查了使用不同参数时,基于长度的句子对齐算法、 Champollion 算法在越南语-汉语双语文本上的效果,并根据汉字与越南语音节间的独特对应关系对 Champollion 算法进行了改进,获得了更好的对齐效果。 关键词:越汉句子自动对齐 Preliminary Study on Vietnamese-Chinese Bilingual Sentence Alignment Kien Trung Tran, Peng Li, Maosong Sun State Key Laboratory of Intelligent Technology and Systems Tsinghua National Laboratory for Information Science and Technology Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China E-mail: tktrungna@, pengli09@, sms@ Abstract: Sentence-level aligned parallel corpora are very important resources for a number of natural language processing tasks, including machine translation, cross language information retrieval and lexicography. In this paper, we investigate the performance of length-based sentence alignment algorithm and Champollion algorithm for Vietnamese-Chinese sentence alignment. And we propose a method to improving the Champollion algorithm by adopting the correspondence between Vietnamese syllables and Chinese characters. Preliminary experiments show the effectiveness of this method. Keywords: Vietnamese-Chinese bilingual sentence alignment. 1 引言 随着经济的发展,中越两国之间的交流、合作越来越多,越南语-汉语(简称越汉) 双语相关信息处理需求也越来越强,如越汉机器翻译技术、跨语言检索技术等,相应的研 究工作也蓬勃开展起来。越汉双语语料库,特别是句子级对齐的越汉双语语料,是这些研 究工作的基础性资源,越汉双语语料库的构建技术具有重要的学术和商业价值。互联网上 具有大量越汉双语网页,是越汉双语语料的重要来源,但这些网页多数都只是在篇章级对 齐,手工找出这些篇章中句子间的对应关系(即“句子对齐”)费时费力,无法实用。因 此利用计算机自动进行句子对齐对构建越汉双语语料库具有重要意义,但据我们所知,目 前尚未见到越汉双语句子对齐的相关研究工作发表。在本论文中,我们考查了在其他语言 对上常用的基于长度的句子对齐算法和 Champollion 算法在越汉语言对

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档