网站大量收购独家精品文档,联系QQ:2885784924

基于语料库双语词典编纂平台构建.docVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语料库双语词典编纂平台构建

基于语料库双语词典编纂平台构建   摘 要 本文介绍了北京大学计算语言学研究所根据汉英双语词典编纂的实际需要而建立的“基于语料库的双语词典编纂平台”。论述了该平台要实现的主要目标及其结构特点、主要功能和使用方式,还介绍了作为该平台基础资源的双语对齐语料库。   关键词 汉英双语词典 编纂平台 语料库   要真正发挥语料库以及信息技术在词典编纂中的作用,切实提高词典编纂人员的工作效率和提高词典的质量,必须认真探索计算机化的词典编纂流程和模型,并建立基于这些模型的软件系统。基于这一思考,我们开始构建“基于语料库的双语词典编纂平台”,期望能为我国辞书编纂技术的现代化做一些工作。      一、编纂平台的目标      “基于语料库的双语同典编纂平台”(下简称“编纂平台”)的主要目标,是力图整合词典编纂人员的编纂技能和现代计算机技术。“编纂平台”并不取代词典编纂者的工作.而是协助编纂人员完成词典编纂,力图在语言技术、计算机技术和编纂人员智慧之间寻求一个最佳结合;在提高词典编纂质量的前提下,将编纂人员从繁杂的非智力工作中解放出来,使他们得以专注于词条的描述,从而提高编纂效率,降低编纂成本。具体而言,“编纂平台”的主要目标为:      1.提高汉英辞书的编纂质量   利用“编纂平台”,词典编纂人员的任何编纂决策均可基于真实语言材料作出。“编纂平台”将充分利用语料库语言学的最新发展,为编纂人员提供用例提取、搭配统计分析、词频统计、词语用法的聚类分析等手段,可有效克服传统词典编纂方法中主要依赖编纂人员主观判断而易使词典编纂脱离语言的实际使用、导致词典质量不能得到保证的弊病。在语料库的支持下,词目的选择、词语用例的选择、词条内容的描述等都能得到真实语言材料的印证和确认。      2.提高汉英辞书的编纂效率和降低编纂成本   词典编纂是一个繁琐复杂的工程性工作,通常不大可能由一个人来完成,而需要集体协作进行,管理和协调的任务十分繁重。再者,词典编纂的资料收集、整合工作耗时耗力。“编纂平台”要在考察传统词典编纂过程的基础上,建立计算机化的词典编纂模型,对各项工作进行协调和管理,同时整合词典编纂所需要的各种资源,并提供方便、安全、快捷的查检手段,从而大幅缩减传统的词典编纂所需要的时间,降低编纂成本。      3.具有通用性   “编纂平台”应是一个基础性工作环境,可以通用于各种类型的双语词典编纂工作,而不限于某一项特定的词典编纂任务。      二、大规模双语对齐语料库的建设      “编纂平台”最为基础的资源是大规模语料库。作为双语词典的编纂平台,双语对齐语料库不可或缺。该语料库由互为译文的两种语言文本构成,通常文本之间依据翻译关系建立不同层次的对齐关系。2001年以来,我们就一直在进行汉英双语对齐语料库的建设工作,目前已经积累的汉语部分达到约1800万字,英语部分达到约1100万词,共包含大约80万个互为译文的汉英对齐句子对。这为研制“编纂平台”提供了一个坚实的基础。   要建立一个大规模的双语语料库,多渠道搜集语料是唯一的选择。这带来的问题是语料文本格式各异,难以统一处理和管理。同时,作为一种基础资源,语料库也需要以一种与具体的应用以及平台无关的形式存在,从而支持相对广泛的应用。为此需要对双语语料库进行统一编码,从而方便语料库的管理、统一处理、共享和交换。我们选用XML语言作为编码的元语言,这是因为XML语言很普及,得到业界的广泛支持,基于XML语言的编码体系容易获得广泛的软件支持。   语料库中描述何种信息,将直接关系到语料库的使用问题。目前,“北大汉英双语语料库”中主要标记的信息有:   (1)文本属性信息,描述汉英文本标题、作者、文体、语体、领域和创作时代方面的属性信息。   (2)文本结构信息,标记汉英文本的标题、子标题、段落、句子的边界信息。   (3)双语对齐信息,标记汉英文本在句子一级的对齐互译关系。   针对这些需要标记的信息,我们分别设计了不同的XML标签进行标记。   双语词典编纂平台可能不仅需要双语对齐语料库,也需要大规模单语语料库、大规模双语对比语料库。因此,构建适用于双语词典编纂的各类语料库,应是一项需要长期坚持努力的系统性工程,需要学术界、出版界长期通力合作。      三、“编纂平台”的主要功能      在对传统词典编纂工作考察的基础上,结合信息技术以及语料库技术发展现状,我们目前为“编纂平台”设定了11项功能目标。      1.语料库的定制和索引   提供最基本的语料库管理功能,允许平台管理员方便地导入语料。不同的词典编纂项目所需语料的内容和构成可能并不相同,平台以创建和配置于语料库的方式对此进行支持。针对为具体词典编纂项目定制的语

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档