Web汉英平行新闻语料获取的困难及对策.pdfVIP

下载本文档

12
0
约1.12万字
约 6页
2017-08-20 发布于安徽
举报
版权申诉

Web汉英平行新闻语料获取的困难及对策.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web汉英平行新闻语料获取的困难及对策1 张霄军 (南京师范大学文学院南京210097；上海电力学院外语系上海200090) 1 zxi5 8@,_,sohu．com 摘要：本文分析了Web汉英平行新闻语料获取过程中的困难，对于Web信息抽取技术做了综述，分析了 Web平行双语抽取的基本方法并具体介绍了几个主要门户网站汉英平行新闻语料的获取过程，指出基于锚文搜索是较好的语料获取途径。关键词：Web语料；平行语料：自然语言处理；信息抽取；锚文一、前言随着自然语言处理技术的发展，基于统计的处理技术越来越得到广泛的应用。语料库是统计自然语言处理技术的基础，基于语言统计模型的自然语言处理技术的发展和应用离不开大规模的真实语料的支持。对于自然语言处理技术的重要应用领域之一——汉英机器翻译而言，一个完备的汉英平行语料库的建设是不可缺少的。其实平行语料库不仅可以应用于机器翻译领域，在对比语言研究(包括语料库语言学、对比翻译研究、对比语言本体研究等)、双语词库提取、双语词典编纂、跨语言信息提取等领域也大有可为。本文只探讨与汉英机器翻译相关的双语平行语料的获取。基于机器翻译研究的现状，本文也仅就新闻领域的汉英机器翻译用的汉英平行语料的获取进行探讨和阐释。双语平行语料库(bilingualcorpus)又叫双语对应语料库，是指由原文文本和其 parallel 平行对应的译语文本所构成的双语语料库，其双语平行对齐的程度可以是词级、句级或段级。机器翻译用的双语平行语料库一般是句子级对齐的。平行语料库的开发建设是上世纪90年 Parallel Corpus)。目前，已建和在建的平行语料库所涉及的语种已有20种之多，而且同类型的双语平行语料库也不止一家(王克非，2004)。国内语料库建设如火如荼，但双语语料库建设，尤其是汉英双语语料库的建设却风毛麟角，难成气候。目前已建成和正在建的有北京大学计算语言学研究所(ICL／PKu)和清华大学、中科院计算所联合承担的国家“973”项目——“图像、语音、自然语言处理和数据挖掘”的子项目“面向新闻领域的汉英机器翻译”，目前该语料库全都是篇章级双语对齐的，汉语约2，000万字，英语l，000多万词，句子级对齐的已有lO万多句对，在句子对齐的基础上进一步做短语级的对齐，对好的已有5万多条短语；中科院自动化所和中科院计算所承担的国家“973”项目——“中文语料库建设”资源建设项目“双语句子对齐语料库”，该项目已完成20万旬对的中英文双语语料库，完成了句子级的对齐，是ChineseLDC的重要组成部分：北京外国语大学中国外语教学研究中心承担的教育部重点研究项目——大型通用汉英平行语料库，该语料库预计规模为3，000万字词，包括翻译文本库、百科语料库、专科语料库和对译语句库。另外还有一些自然语言处理研究机构自行开发的面向特定用途的小规模汉英平行语料库。以上所提到的三家大型汉英平行语料库都是均衡的综合性语料库，但机器翻译的现状决 1本项目得到南京师范大学十五211工程重点学科建设——』语言信息处理与分领域语言研究的现代化”基金项目资助。 --66．- 定了机器翻译研究的突破口应该是某些特定的应用领域。如哈尔滨工业大学机器翻译研究室和微软亚洲研究院就选择‘08奥运体育新闻”为机器翻译的突破口，南京师范大学文学院语言科技系也拟以短篇新闻翻译为突破口。这就需要建立以特定领域汉英机器翻译为目标的特定领域的双语平行语料库，本文以面向新闻领域的汉英机器翻译的汉英平行语料库建设为例。汉英平行新闻语料的获取途径有人工录入、电子扫描和网上下载等，但语料获取的来源却十分有限，尤其是互联网上的Web汉英平行语料的获取十分困难。虽然上述双语语料库的规模都达到了2，000字词以上，但其中的新闻语料却十分有限，可能占不到总规模的20％。本文要讨论和解决的就是在汉英平行新闻语料库建设中碰到的第一个拦路虎——W曲语料的获取问题。二、Web汉英平行新闻语料获取的困难用于语料库建设的语料的获取要注意到语料的体裁、题材、内容、时间、篇幅来源和格