- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
上海外语教育出版社英汉双语平行句对语料库构建
上海外语教育出版社英汉双语平行句对语料库构建摘要 上海外语教育出版社英汉双语平行句对语料库建设是该社承担的上海市科委课题“双语词典编纂系统的研发”的子课题。该语料库是该社双语词典编纂系统的在线辅助语料库之一,为双语词典编纂提供英汉平行句对例证,并为词典编纂提供语言统计信息、分析信息等。文章综述了该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面,同时也探讨今后如何进一步开发与利用该语料库。
关键词 平行语料语料库建设双语词典编纂系统
上海外语教育出版社(以下简称“外教社”)承担的上海市科委课题“双语词典编纂系统的研发”是上海市政府扶持辞书编纂出版数字化的重大科研项目,该课题的总体目标是开发一个基于语料库的数字化双语词典编纂出版系统,其子课题之一就是构建一个服务于双语词典编纂、经过深加工的、通用共时并在句子层面对齐的英汉双语书面语语料库。该语料库以英语为原语、以汉语为译语,以XML(extensible Markup Language)为标注语言,对英语原文语料的标注做到分词(tokenization)、主词标注(lemmatization)及词性赋码(part ofspeech tagging),对汉语译文语料的标注做到分词及词性赋码。基于该语料库,词典编纂者及词典用户可以通过在线检索平台提取有效的词典例证,统计具体词语的词频信息,了解词汇的分布情况,获得具体词语或结构的用法信息(包括语义、语法、搭配等方面)。经过三年多的建设,该语料库一期工程已建成收录68万英汉双语平行句对的语料库,总字数达5455万。本文将综述该语料库的设计和构建过程,内容涉及语料的采集、加工、标注、检索等方面。
一、语料库前期设计
课题研究开始时,外教社课题组与各合作单位进行了较为广泛的调查工作,并以此为基础制订了详细的语料库建设实施方案,确定语料库设计阶段的主要任务为:(1)确定标注语言;(2)确立语料选取的原则及语料来源;(3)制订语料储存方案与各项工作流程;(4)编制语料库技术开发需求规约。
1.标注语言
英汉双语平行句对语料库的标注语言采用了XML,即可扩展标记语言。XML是目前通用的数据标记语言,它能描述多种类型的文本逻辑结构,能创建不受平台或格式化协定限制的开放数据。XML的设计宗旨是传输数据,使其成为独立的信息传输与集成工具。XML文件没有任何预定义标签,因其“高度灵活,扩展性强”(梁茂成等2010)的特点,在跨平台数据交换、数据建模与分析、网络服务等众多领域得到了广泛应用。Jeffrey Zeldma在Designing with Web Standards(2nd Ed.)中这样描述XML的开放性:“XML于1998年2月被引入软件工业界时,它给整个行业带来了一场风暴。有史以来第一次,这个世界拥有了一种用来结构化文档和数据的通用且适应性强的格式,它不仅仅可以用于WEB,而且可以被用于任何地方”(http://WWW./x.asp)。正是由于XML具有开放性强、兼容性好、灵活性高、扩展性强的特点,可实现信息内容、结构和表现三者的分离,我们选用了XML作为英汉双语平行句对语料的标注语言。
2.语料选取原则
根据语料库的性质与定位,我们确立了六大语料选取原则:(1)语料以英语为原语,以汉语为译语,汉译英类语料不收。(2)以20世纪以来的现当代作品语料为主。(3)以书面语语料为主,口语、录音文本不收。(4)为尽量保证语料库的平衡性,确定了人文社科类语料占70%、自然科学与应用科学类语料占15%、其他类语料占15%的语料分布比例。文学类语料包括虚构类(fiction)与非虚构类(non-fiction),但不收录诗歌作品。学科广度原则优于深度原则,科技类语料以科普类作品为主。(5)为保证语篇的连贯性与完整性,语料收录以整部或整篇为单位,片段I生语料不予收录。片段性语料指的是须从作品中逐个析出的以句子或段落为单位的语料,一般包括翻译教材中的译例、词典中的例证,等等。(6)除了语料库的性质与定位外,确立语料选取原则时须纳入考虑的另一个因素是语料本身的质量,这就涉及语料原本与译本的选择。为了保证质量,我们在选取语料时尽可能遵循两个原则:(1)选择声誉高、影响大、专业性出版机构的出版物;(2)同一部英语作品有多种汉语译本的,选择质量高或权威的译本。
作为全国最大、最权威的外语出版基地之一,外教社本身就拥有大量双语语料资源。在这些语料资源中,我们共选取了近200种已出版的、符合语料库定位的英汉双语对照图书的电子文本,用于语料库建设。其他语料的来源有正式纸质出版物和来自互联网的电子文本两种,以纸质出版物为主,互联网文本为辅。出于保证语料质量的考虑,这些语料必须具备四大要素——作品名、英语作者、汉语译者、出
文档评论(0)