网站大量收购独家精品文档,联系QQ:2885784924

中文语言资源联盟的建设和发展.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文语言资源联盟的建设和发展

中文语言资源联盟的建设和发展 1 1 2 3 赵军 徐波 孙茂松 靳光瑾 1 中国科学院自动化研究所 100080 2 清华大学计算机科学与技术系 100084 3 教育部语言文字应用研究所 100010 jzhao@, xubo@, sms@, guangjin2000@163.com 摘 要 语言资源的建设是语言信息处理领域的重要基础。本文介绍了在973 计划特别专项“中文语料库 建设”的支持下建立的中文语言资源联盟(ChineseLDC )的情况,包括语言资源建设、规范和标准的制 订以及管理机制的建立等方面。进一步对ChineseLDC 在语言资源建设和评测机制建立方面的下一步发展 规划进行了阐述。 1 ChineseLDC的起因 [1] 近年来,我国在中文信息处理研究和开发的各个领域都取得了长足的进步 。然而在资 源建设、资源共享、信息交流、评测等方面还存在一些共同的问题,限制了这些研究和开 发的进一步深化和发展。语言资源的匮乏使很多研究还停留在小规模试验阶段,不能够真 正地发展到大规模和实用的程度。各家都在建设资源,但是由于资金和力量分散,大多数 资源还达不到可以实用的规模。而事先又没有统一的规划和布局,没有相关的系列标准, 使得各家的相关资源很难融合。另一方面,因为没有一个好的资源共享机制,使得这些资 源难以得到推广和共享。在评测方面,我国在自然语言处理、信息检索等多个领域缺乏统 一客观的评测机制,使得大家对自己的研究缺乏横向和纵向的比较,不容易发现研究中存 在的问题,从而不能保证研究向好的方向发展。 [2] 在资源建设和资源共享方面,LDC (Linguistic Data Consortium ) 的经验值得我们学 习和借鉴。LDC 由Advanced Research Projects Agency (ARPA) 和美国国家自然科学基金资 助,由宾州大学主持,目的是建造、收集和分发语言资源,用于语言信息处理领域的研究、 教学和开发。现在已经有 100 多所大学、公司和政府部门加盟,有各种语言资源220 种, 涉及英文、德文、法文、西班牙文、中文、日文和阿拉伯文等多种语言。在建设和收集语 言资源的同时,LDC 还重视资源的共享。到目前为止,LDC 已经向700 多个单位发行了资 源。LDC 在语言资源的大规模建造和广泛分享方面提供了一个全新的机制,极大地促进了 相关领域的研究和开发水平的提高。它的经验表明,语言资源有计划的规模开发和广泛共 享,对于语言信息处理领域的研究和开发具有重要意义。 另一方面,为了做到语言资源的规模开发和广泛分享,必须有系统的、大家认可的标 准和规范。目前国际上已经有很多有关语言资源建设和管理方面的规范和标准,例如:语 料库管理方面的 TEI(Text Encoding Initiatives)[3] 和 Multext(Multilingual Text Tools and Corpora)[4] 、语料库多层次标注方面的 ISLE(International Standards for Language 1 Engineering)[5]和ATLAS(Architecture and Tools for Linguistic Analysis Systems)[6] 、软件平台 方面的MATE(Multilevel Annotation Tools Engineering)[7]和NITE(Natural Interactivity Tools and Corpora)[8] 、本体知识体系

文档评论(0)

136****3783 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档