建设综合型语言知识库理念与成果价值.docVIP

建设综合型语言知识库理念与成果价值.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
建设综合型语言知识库理念与成果价值

建设综合型语言知识库理念与成果价值   编者按:Internet时代对中文信息处理提出了更多、更新的需求,同时,致力于中文信息处理研究的队伍也在不断地壮大。在这支队伍中,既有在这个领域里长期辛勤耕耘的老兵,也有初出茅庐的新人。为了使研究者们得以在更高的起点上开展研究,我们特向该领域(或相关领域)的资深专家和学者约稿,这些稿件或是多年研究成果的厚实积累以及发轫于斯的深刻思考,或是具有前瞻性的前沿课题探索,或是相关研究工作系统而深入的综述。我们设立了一个约稿专栏,陆续刊登此类稿件,以飨读者。本期刊登其中的1篇,是俞士汶教授的“建设综合型语言知识库的理念与成果的价值”,相信这篇论文对读者全面、深刻地了解乃至理解相关学术问题,一定会大有裨益。   摘 要:积20余年之努力与锤炼,北京大学计算语言学研究所完成的一项科研成果“综合型语言知识库”于2007年2月通过了教育部组织的技术鉴定。鉴定结论认为“其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平”。本文在介绍以《现代汉语语法信息词典》为基础的综合型语言知识库的规模、构成、内容、品质和发展历程之后,陈述建设综合型语言知识库的理念,期望与读者分享在计算语言学和自然语言处理这一交叉学科领域内治学的心得与研发的经验。同时也对这项成果的应用实例进行分析,评估它的应用潜力,期望它在以汉语为核心的多语言信息处理事业的发展中起到铺路填坑或者投石问路的作用。   关键词:计算机应用;中文信息处理;综合型语言知识库;多语言信息处理;计算语言学;自然语言处理;现代汉语语法信息词典;治学心得   中图分类号:TP391 文献标识码:A      1 引言      北京大学计算语言学研究所(Institute of Com-putational Linguistics,下称ICL/PKU)完成的一项研究成果“综合型语言知识库”(ComprehensiveLanguage Knowledge-base,下称CLKB)于2007年2月在北京通过教育部组织的技术鉴定。鉴定结论认为“其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平”。   这次鉴定的CLKB包括5项语言数据资源和两个应用系统:   (1)现代汉语语法信息词典(8万词语)   (2)汉语短语结构知识库(600多条规则)   (3)中英文概念词典(10万概念)   (4)现代汉语大规模基本标注语料库(5000多万汉字)   (5)汉英双语平行语料库(80万句对)   (6)基于语料库的双语词典编纂平台   (7)信息提取系统(含词语切分和词性标注软件)   同文相比较,这次通过鉴定的CLKB增加了两个应用系统。另外,为了内容更集中,“面向汉英机器翻译的现代汉语语义词典”、“多个专业领域的术语库”、“中国古代诗词语料库”这3项语言数据资源未参加本次鉴定。   除“1引言”外,本文第2章介绍以《现代汉语语法信息词典》为基础的综合型语言知识库的规模、构成、内容、品质及其发展历程。第3章援引最近征集到的用户报告中的一些应用实例,分析与评估CLKB的应用价值,期望它在迅速成长的以汉语为核心的多语言信息处理事业中发挥更大的作用,也探讨它在语言本体研究和语言教学中的应用潜力。第4章介绍建设综合型语言知识库的理念,期望与读者分享在计算语言学和自然语言处理这一交叉学科领域内治学的心得与研发的经验。最后,展望综合型语言知识库系统的发展前景,并表达对综合型语言知识库的所有支持者、奉献者和用户的真诚谢意。      2 ICL/PKU的综合型语言知识库之概貌      2.1 当前综合型语言知识库的内容   (1)《现代汉语语法信息词典》(Grammatical Knowledge-base of Contemporary Chinese,简称为GKB)   中国工程院编《20世纪我国重大工程技术成就》一书于2002年出版。“两弹一星”位于首位,第二项是“汉字信息处理与印刷革命”,其中有一段介绍:“《现代汉语语法信息词典》是一部面向语言信息处理的大型电子词典。它按照语法功能和意义相结合的准则收录了7.3万余词语。依照语法功能分布的原则建立了词类体系,完成了这7.3万词语的归类。并在此基础上,分类描述每个词语的各种语法属性。”现在词典的规模已经扩充到8万。   GKB以数据库文件形式描述所收入的每个词语的类别以及各种语法属性,共有34个数据库文件。其中总库1个,各类词库25个,动词下属分库6个和代词下属分库2个。   

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档