关于建立中国国家科学技术语料库思考.docVIP

关于建立中国国家科学技术语料库思考.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于建立中国国家科学技术语料库思考

关于建立中国国家科学技术语料库思考   [摘要] 论述当前语料库建设的最新发展趋势以及建立我国大规模、国家级科学技术语料库对应用于科技信息领域的自然语言处理技术、知识技术等智能信息技术研究发展的意义和重要性,探讨国家科技语料库的建设目标、设计原则、加工功能、组成结构及其他一些相关问题,目的是推动我国科技语料库的建设,并得到国家有关部门的关注与支持。   [关键词] 自然语言处理 科学技术语料库 句法树库 语料标注   [分类号] H087 TP391      1 引 言      自然语言处理技术已经成为数字图书馆进一步发展的重要技术基础。当前,自然语言处理技术的发展和应用越来越依赖大规模、深加工的语料库作为基础,包括通用的和专业领域的语料库。为了使自然语言文本分析和挖掘、机器翻译、单语言或多语言基于知识的问答式信息检索等自然语言处理技术早日在数字化文献信息服务中得以应用,我们认为,有必要建立中国国家科学技术语料库。这一国家级语料库不仅有利于自然语言处理技术的发展应用,也会促进知识工程技术(如各类知识库的自动构建)的发展,促进基于语料库的科技语言研究的发展。而科技语言研究在国内几乎还是空白,用科技语料库来促进以汉语为主的国内科技语言研究,这对提高我国在国内和国际的科技交流与传播水平具有重大基础意义。   建立国家级公用性的大规模语料库在国外早已开始。例如:20世纪90年代初,英国就开始建立英国国家语料库(BNC),迄今已达4亿词的规模;2004年,美国也在原有一些重要语料库的基础上,组建美国国家语料库(ANC)。这些国家级语料库都是通用的语料库,但都包含有一定数量比例的科技语言文本。我国国内虽也有一些著名的大型语料库,如北京大学计算语言学研究所以《人民日报》为内容的汉语语料库,但尚未达到BNC语料库那样的规模和级别。我们认为,或许可以通过中国国家科技语料库的建设来进一步带动我国国家级通用语料库以及整个语言数据工程的建设工作。   本文依托我们承担的国家科技支撑计划项目课题“多语言信息服务环境关键技术研究与应用”的研究工作,对建立中国国家科学技术语料库提出一些初步的考虑。      2 语料库发展历史和当前趋势      2.1 发展历史   我们现在所说的语料库,是指基于计算机的语料库,也叫电子语料库或数字语料库(Digital corpus),其研究和构建始于20世纪60年代初。开始,语料库的建设主要是为了语言学家的语言研究工作,如语法研究和编纂。进入20世纪80年代后,西方一些大型出版社开始通过建设语料库来支持编纂出版语言词典。英国在20世纪70年代初和20世纪80年代中期,由著名学者R,Quirk主持编纂的两个版本的大型英语语法专著以及在20世纪80年代中期英国柯林斯出版社出版的Cobuild系列英语词典,都是在大型语料库基础上完成的,都被视为现代发达国家在民族语言和文化建设上的划时代的里程碑事件。   20世纪90年代后,随着统计自然语言处理,特别是统计机器翻译技术的研究发展对语料库的需要,语料库建设得到了迅速发展。美国宾州大学的各类语料库就是面向自然语言处理技术的重要代表。目前,语料库开发建设日益成为一项典型的数据工程技术,而且日益结合人工智能中的机器学习等多项技术,大大促进了自然语言处理技术(包括机器翻译技术)的发展,也促进了知识工程技术(如知识库??建、本体学习等)的发展。   语料库工程同自然语言处理技术之间的关系,可以说是一种相互促进、螺旋上升的关系,即:语料库加工需要一系列自然语言处理工具,如词性标注、句法分析等,同时语料库又是发展一系列自然语言处理技术的数据基础,通过机器学习方式加工语料库,可以为各种统计自然语言处理提供大规模训练语料和测试语料。没有语料库的数据作基础,统计式词性标注器、句法分析器就不可能产生。由此可见,语料库建设在自然语言处理技术和知识技术研究发展中,已经是不可或缺、基础性而且大规模的独立数据工程。      2.2 当前趋势   当前,语料库工程技术呈现如下一些重要发展趋势,应该引起国内有关研究和技术领域的关注,即:   ?语料库已按综合或领域、大中小型不同规模、不同使用目的(语言研究、语言技术和知识技术开发、语言学习和教育等)、单语语料库或双语及多语并行语料库、可比语料库等多种类型或方式发展,如美国语言数据联盟LDC的各类语料。   ?语料库的加工或标注则按照现代语言学对语言结构描写的层次,从词法、句法、深层逻辑句法到话语进行不同层次的加工或标注,形成了不同语言结构层次的语料库,如宾州大学的树库(Treebanks)、命题库(Propbanks)、话语库(Discourse banks)等。   ?对语料库加工需要有相应的加工规范,即对

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档