- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
综合型语言知识库的建设与利用-InstituteofComputationalLinguistics.doc
PAGE
PAGE 13
综合型语言知识库的建设与利用*
俞士汶 段慧明 朱学锋 张化瑞
北京大学计算语言学研究所
Email: HYPERLINK mailto:yusw@ yusw@
摘 要:语言知识库的规模和质量决定了自然语言处理系统的成败。经过近18年的努力,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源:现代汉语语法信息词典,大规模基本标注语料库,现代汉语语义词典,中文概念词典,不同单位对齐的双语语料库,多个专业领域的术语库,现代汉语短语结构规则库、中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外,还将提供支持知识挖掘的工具软件???促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展;提供多种形式的知识传播和信息服务机制,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的、多层次的支持。综合型语言知识库将在应用中扩充规模,更新内容,提高质量,永葆活力。
关键词:中文信息处理,自然语言处理,语言知识库,语言数据资源,电子词典,语料库
The Construction and Utilization of A Comprehensive Language Knowledge-base
Yu Shiwen, Duan huiming, Zhu xuefeng, Zhang Huarui
Institute of Computational Linguistics, Peking University
Email: HYPERLINK mailto:yusw@ yusw@
Abstract: The scale and quality of the knowledge-base decides the success or failure of the natural language processing system. Institute of Computational Linguistics of Peking University has accumulated a series of languages-data resources that have good quality with considerable scale after 18 years of diligent work: the Grammatical Knowledge-base of Contemporary Chinese, the large-scale POS-Tagged Corpus of Contemporary Chinese, Semantics Knowledge-base of Contemporary Chinese (SKCC), Chinese Concept Dictionary (CCD), a Bilingual Parallel Corpus with different aligned units, Special Term Bank of Different Disciplines, the Phrase Structure Knowledge-base of Contemporary Chinese, a Corpus of Ancient Chinese Poems. The present research will integrate these language data resources into one unified and comprehensive language knowledge-base. While incorporating all these different resources, the gaps between them must be filled up. The comprehensive language knowledge-base being planned will provide not only friendly using interface and convenient application program interface but also various software tools
_____________________________________________________________________________
* 本文相关研究得到中国国家863计划(2
文档评论(0)