- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语义知识库简介-北京大学中国语言学研究中心
语义知识库简介
詹卫东
/doubtfire
/doubtfire/lc_list.asp?folder=semantics
提纲
1 WordNet
2 FrameNet
3 MindNet
4 CYC, ILD, EDR
5 HowNet (知网)
6 905工程,汉语配价词典,CCD (中文概念辞典)
7 小结:对语义知识库的评价
2
1 WordNet
3
WordNet概况
1985 ——
George.A.Miller, Katherine J. Miller, Christiane Fellbaum,
Randee Tengi, …
Cognitive Science Laboratory, Princeton University
Christiane Fellbaum, ed., 1998, WordNet : an electronic
lexical database, The MIT Press
/~wn/
http://www.hum.uva.nl/~ewn/
4
WordNet发展简史
70年代:基于义素分析的词汇语义学 (componential lexical semantics )
80年代:基于关系的词汇语义学 (relational lexical semantics)
1985: Miller, WordNet: A Dictionary Browser,
可以使用同义词集合(synset )来代表词汇概念,形成词汇网络,即
在词的形式和意义之间建立起映射关系(mapping)。
WordNet被设想为是一个词典浏览器,是一个机器可读词典的辅助工
具。而这样一个机器词典不是按字母排序的,是基于意义组织起来
的。
1987: Christiane Fellbaum加盟WordNet
1991年7月,WordNet 1.0版,包含44983个同义词集合
现在,WordNet 1.7.1版
5
WordNet 的心理语言学假设
可分离性假设(Separability hypothesis ):语言的词
汇成分可以被离析出来并专门针对它加以研究。
可模式化假设(patterning hypothesis):一个人不可
能掌握他运用一种语言所需的所有词汇,除非他能够
利用词义之间存在的系统的模式和关系。
广泛性假设(comprehensiveness hypothesis ):计算
语言学如果希望能像人那样处理自然语言,就需要像
人那样储存尽可能多的词汇知识。
6
WordNet词汇的来源
语料库
Brown语料库;
已有的一些词表
Laurence Urdang (1978)的《同义反义小词典》;
Urdang (1978)修订的《Rodale同义词词典》;
Robert Chapmand (1977)的第4版《罗杰斯同义词词林》;
美国海军研究与发展中心的Fred Chang的词表,与WordNet原
有词表只有15%的重合词语(1986)
Ralph Grishman和他在纽约大学的同事的一个词表,包含
39143个词,这个词表实际上包含在著名的COMLEX词典中。
WordNet当时词表与该
文档评论(0)