- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京大学的综合型语言知识库介绍.pdf
北京大学的综合型语言知识库介绍
作者:北京大学计算语言学教育部重点实验室
北京大学计算语言学研究所俞士汶等人研制的综合型语言知识库 (Comprehensive
Language Knowledge Base,简称 CLKB)荣获 2011 年度中国国家科学技术进步奖二等奖。俞
士汶有幸参加了 2012 年 2 月 14在北京举行的国家科学技术奖励大会。
CLKB 属于 “中国语言文字信息处理”学科,该学科是植根于计算机科学技术、语言学
等多学科土壤而成长的典型的文理交叉学科。中文 (这里特指汉语)信息处理可划分为汉字
信息处理和汉语信息处理两个既有区别又有紧密联系的层次。我国汉字信息处理已经取得突
破,为社会的信息化进程做出了重要贡献。以汉语为核心的语言信息处理技术对我国知识经
济发展、国家安全维护、国际地位提升等方面都具有战略重要性。无论从社会需求还是从技
术发展水平的角度看,我国的语言信息处理事业可谓任重道远。
语言信息处理研究旨在让计算机能理解和运用人类语言,以便高效获取和利用语言承载
的信息和知识,可应用到机器翻译、信息检索、文本管理、人机会话和语言教学等各个领域,
也具有探索人类语言理解机制的科学价值。计算机学习人类语言,可类比于人学习第二语言。
人学习第二语言要掌握该语言大量的词汇和句法语义知识,市场上有形形色色的课本、词典、
读物、参考书出售。让计算机理解人类语言,也要给计算机配备语言知识库。语言知识库是
支撑语言信息处理发展的基础设施。不过,给计算机用的语言知识与供人学习的语言知识要
有区别。在建设面向语言信息处理的语言知识库时,需要考虑以下问题:⑴ 内容上, 计算
机需要什么样的语言知识?⑵ 形式上,怎样描述这些语言知识计算机才好使用?⑶ 如何建
设实用型的语言知识库?
数字型电子计算机在非数值领域的最早应用就是从语言信息处理即机器翻译开始的,然
而无论同计算机技术本身相比较,还是同计算机在各个领域的应用相比较,语言信息处理研
究的进展都是相当缓慢的,国际上已走过 60 多个年头,至今尚未取得关键性的突破。原因
1
很多。人类对自身的语言机制不甚了了,难以建立媲美于人类语言理解机制并可在计算机上
实现的数学模型,可能是本质的原因,而语言知识库建设的滞后也是重要的原因之一。我国
语言信息处理上规模的研究始于上世纪 80 年代中期。当时中国学者要做的工作很多,同时
也在思考,如何发挥后发优势?CLKB 项目组认为建设语言知识库乃当务之急。那时国内外
面向信息处理的汉语语言知识基础资源几乎是空白。与英、日等其他语言不同,汉语缺乏形
式标记, 建设汉语语言知识库的任务尤显迫切和艰巨。CLKB 项目组立足于北大文理结合的
基础,发挥对母语知识和文化的认知优势,从 1986 年起开始研究汉语计算模型和语言知识
形式化描述方法,并实际构建语言知识库。历时 20 余年,建成综合型语言知识库。
CLKB 包括:语言知识库、规范与国家标准、核心基础软件和应用系统。图示如下:
在汉语形式化计算模型及汉语语言学理论体系指导下建立的语言知识库是 CLKB 的主
体。为每个语言知识库制定的规范和标准指导工程实践,由软件工具集支持的人机互助模式
保证了知识库工程的质量和进度。应用系统检验和丰富知识库。它们相互支撑,形成一个紧
密联系的有机整体。
2
具体的语言知识库有(1)《现代汉语语法信息词典》(简称GKB),含 8 万词语,在依照
语法功能对 8 万词语进行分类的基础上,详细描述每个词语的语法属性,语法属性总数达
360 万项;(2)汉语短语结构规则库,含 600 多条句法规则;(3)现代汉语多级加工语料库,
实现词语切分并标注词性的精加工的基本加工语料库有 5200 万字,进而标注义项 (即GKB
中的“同形”信息)的有 2800 万字;这样的语料库将汉语文本中隐含的语言知识显性化,
便于机器学习和应用;(4)多语言概念词典,含 10 万个以“同义词集”表示的概念,描述概
念间的上位-下位、部分-整体、反义、蕴含等关系;(5)平行语料库,含对译的英汉句对 100
万;(6)多领域术语库,有信息科技、体育、商贸、餐饮、旅游 5 个领域的 35 万条中英对照
术语。
文档评论(0)