中文语言资源联盟的建设和发展.pdf

下载文档 降价啦

17
0
约1.14万字
约 8页
2019-02-04 发布于天津
举报
版权申诉
保障服务

中文语言资源联盟的建设和发展.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文语言资源联盟的建设和发展

中文语言资源联盟的建设和发展 1 1 2 3 赵军徐波孙茂松靳光瑾 1 中国科学院自动化研究所 100080 2 清华大学计算机科学与技术系 100084 3 教育部语言文字应用研究所 100010 jzhao@, xubo@, sms@, guangjin2000@163.com 摘要语言资源的建设是语言信息处理领域的重要基础。本文介绍了在973 计划特别专项“中文语料库建设”的支持下建立的中文语言资源联盟（ChineseLDC ）的情况，包括语言资源建设、规范和标准的制订以及管理机制的建立等方面。进一步对ChineseLDC 在语言资源建设和评测机制建立方面的下一步发展规划进行了阐述。 1 ChineseLDC的起因 [1] 近年来，我国在中文信息处理研究和开发的各个领域都取得了长足的进步。然而在资源建设、资源共享、信息交流、评测等方面还存在一些共同的问题，限制了这些研究和开发的进一步深化和发展。语言资源的匮乏使很多研究还停留在小规模试验阶段，不能够真正地发展到大规模和实用的程度。各家都在建设资源，但是由于资金和力量分散，大多数资源还达不到可以实用的规模。而事先又没有统一的规划和布局，没有相关的系列标准，使得各家的相关资源很难融合。另一方面，因为没有一个好的资源共享机制，使得这些资源难以得到推广和共享。在评测方面，我国在自然语言处理、信息检索等多个领域缺乏统一客观的评测机制，使得大家对自己的研究缺乏横向和纵向的比较，不容易发现研究中存在的问题，从而不能保证研究向好的方向发展。 [2] 在资源建设和资源共享方面，LDC （Linguistic Data Consortium ）的经验值得我们学习和借鉴。LDC 由Advanced Research Projects Agency (ARPA) 和美国国家自然科学基金资助，由宾州大学主持，目的是建造、收集和分发语言资源，用于语言信息处理领域的研究、教学和开发。现在已经有 100 多所大学、公司和政府部门加盟，有各种语言资源220 种，涉及英文、德文、法文、西班牙文、中文、日文和阿拉伯文等多种语言。在建设和收集语言资源的同时，LDC 还重视资源的共享。到目前为止，LDC 已经向700 多个单位发行了资源。LDC 在语言资源的大规模建造和广泛分享方面提供了一个全新的机制，极大地促进了相关领域的研究和开发水平的提高。它的经验表明，语言资源有计划的规模开发和广泛共享，对于语言信息处理领域的研究和开发具有重要意义。另一方面，为了做到语言资源的规模开发和广泛分享，必须有系统的、大家认可的标准和规范。目前国际上已经有很多有关语言资源建设和管理方面的规范和标准，例如：语料库管理方面的 TEI(Text Encoding Initiatives)[3] 和 Multext(Multilingual Text Tools and Corpora)[4] 、语料库多层次标注方面的 ISLE(International Standards for Language 1 Engineering)[5]和ATLAS(Architecture and Tools for Linguistic Analysis Systems)[6] 、软件平台方面的MATE(Multilevel Annotation Tools Engineering)[7]和NITE(Natural Interactivity Tools and Corpora)[8] 、本体知识体系