- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web汉英平行新闻语料获取的困难及对策1
张霄军
(南京师范大学文学院南京210097;上海电力学院外语系上海200090)
1
zxi5
8@,_,sohu.com
摘要:本文分析了Web汉英平行新闻语料获取过程中的困难,对于Web信息抽取技术做了综述,分析了
Web平行双语抽取的基本方法并具体介绍了几个主要门户网站汉英平行新闻语料的获取过程,指出基于锚
文搜索是较好的语料获取途径。
关键词:Web语料;平行语料:自然语言处理;信息抽取;锚文
一、前言
随着自然语言处理技术的发展,基于统计的处理技术越来越得到广泛的应用。语料库是
统计自然语言处理技术的基础,基于语言统计模型的自然语言处理技术的发展和应用离不开
大规模的真实语料的支持。对于自然语言处理技术的重要应用领域之一——汉英机器翻译而
言,一个完备的汉英平行语料库的建设是不可缺少的。其实平行语料库不仅可以应用于机器
翻译领域,在对比语言研究(包括语料库语言学、对比翻译研究、对比语言本体研究等)、
双语词库提取、双语词典编纂、跨语言信息提取等领域也大有可为。本文只探讨与汉英机器
翻译相关的双语平行语料的获取。基于机器翻译研究的现状,本文也仅就新闻领域的汉英机
器翻译用的汉英平行语料的获取进行探讨和阐释。
双语平行语料库(bilingualcorpus)又叫双语对应语料库,是指由原文文本和其
parallel
平行对应的译语文本所构成的双语语料库,其双语平行对齐的程度可以是词级、句级或段级。
机器翻译用的双语平行语料库一般是句子级对齐的。平行语料库的开发建设是上世纪90年
Parallel
Corpus)。目前,已建和在建的平行语料库所涉及的语种已有20种之多,而且同类
型的双语平行语料库也不止一家(王克非,2004)。
国内语料库建设如火如荼,但双语语料库建设,尤其是汉英双语语料库的建设却风毛麟
角,难成气候。目前已建成和正在建的有北京大学计算语言学研究所(ICL/PKu)和清华大
学、中科院计算所联合承担的国家“973”项目——“图像、语音、自然语言处理和数据挖
掘”的子项目“面向新闻领域的汉英机器翻译”,目前该语料库全都是篇章级双语对齐的,汉
语约2,000万字,英语l,000多万词,句子级对齐的已有lO万多句对,在句子对齐的基
础上进一步做短语级的对齐,对好的已有5万多条短语;中科院自动化所和中科院计算所承
担的国家“973”项目——“中文语料库建设”资源建设项目“双语句子对齐语料库”,该项
目已完成20万旬对的中英文双语语料库,完成了句子级的对齐,是ChineseLDC的重要组
成部分:北京外国语大学中国外语教学研究中心承担的教育部重点研究项目——大型通用汉
英平行语料库,该语料库预计规模为3,000万字词,包括翻译文本库、百科语料库、专科
语料库和对译语句库。另外还有一些自然语言处理研究机构自行开发的面向特定用途的小规
模汉英平行语料库。
以上所提到的三家大型汉英平行语料库都是均衡的综合性语料库,但机器翻译的现状决
1本项目得到南京师范大学十五211工程重点学科建设——』语言信息处理与分领域语言研究的现代化”基
金项目资助。
--66.-
定了机器翻译研究的突破口应该是某些特定的应用领域。如哈尔滨工业大学机器翻译研究室
和微软亚洲研究院就选择‘08奥运体育新闻”为机器翻译的突破口,南京师范大学文学院语
言科技系也拟以短篇新闻翻译为突破口。这就需要建立以特定领域汉英机器翻译为目标的特
定领域的双语平行语料库,本文以面向新闻领域的汉英机器翻译的汉英平行语料库建设为
例。
汉英平行新闻语料的获取途径有人工录入、电子扫描和网上下载等,但语料获取的来源
却十分有限,尤其是互联网上的Web汉英平行语料的获取十分困难。虽然上述双语语料库
的规模都达到了2,000字词以上,但其中的新闻语料却十分有限,可能占不到总规模的20%。
本文要讨论和解决的就是在汉英平行新闻语料库建设中碰到的第一个拦路虎——W曲语料
的获取问题。
二、Web汉英平行新闻语料获取的困难
用于语料库建设的语料的获取要注意到语料的体裁、题材、内容、时间、篇幅来源和格
您可能关注的文档
- 220kV陇海变电站扩建2号主变工程中危险点分析及控制.pdf
- 260例慢性乙肝中医证型与肝组织病理改变的相关性研究.pdf
- 300~600MW切向燃烧锅炉再热器超温爆管的原因分析和改进措施.pdf
- 390例儿童弱视综合治疗观察.pdf
- 490t循环流化床锅炉屏式再热器集箱短管裂纹分析及改造方案.pdf
- 500例慢性前列腺炎的临床症状分析.pdf
- 0505号“海棠”台风暴雨数值模拟试验和分析.pdf
- 600MW超临界机组汽轮机垢样的XRF分析.pdf
- 0908号台风-莫拉克-特征及风暴增水分析.pdf
- 黑液气化炉碱溶解室内衬材料腐蚀性能与研究.pdf
- 2022-2023年执业药师之西药学综合知识与技能模拟卷包括详细解答.docx
- 2023年中级会计职称之中级会计实务通关练习题库.docx
- 2022-2023年中级注册安全工程师之安全实务化工安全模拟考试试卷附有答案详解.docx
- 2022-2023年中级注册安全工程师之安全生产管理综合提升训练试卷提供答案解析.docx
- 2022-2023年中级注册安全工程师之安全生产管理练习题库附答案.docx
- 2023年安全员之B证(项目负责人)综合提升测试卷提供答案解析.docx
- 2022-2023年安全员之江苏省C1证(机械安全员)综合提升练习题附答案.docx
- 2022-2023年资产评估师之资产评估基础试卷包括详细解答.docx
- 环境影响评价工程师之环评技术方法模拟卷附带答案.docx
- 2023年机械员之机械员基础知识测试卷和答案.docx
文档评论(0)