- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
WordNet发展历程介绍
WordNet 发展过程详细介绍
一 WordNet发展概况
· 关于WordNet的不成熟的想法可以追溯到20多年前,而这一想法开始逐渐具体化和清晰化则是1985年后才开始的。从85年开始,WordNet作为一个知识工程全面展开。不过,当时的WordNet和经过10多年后今天的WordNet还是很不一样的。
· 这一工程最初的前提之一是“可分离性假设”(Separability hypothesis),即语言的词汇成分可以被离析出来并专门针对它加以研究。词汇编纂学的历史明确地告诉我们,在词语水平上可以得到有用的研究成果。词库(词典,lexicon)当然不是完全独立于其他语言成分的,但它的确是可以从其他成分中分离出来的。例如,尽管语音和语法知识在一个人的早年生活中就成型了,但词汇量却可以随着智力活动的不断积累而增加。这表明语言的不同成分涉及不同的认知过程。
· 另一个前提是“模式假设”(patterning hypothesis):一个人不可能掌握他运用一种语言所需的所有词汇,除非他能够利用词义中存在的系统的模式和词义之间的关系。这种系统化的心智模式至少从柏拉图时代就成为一种进行推测的学问,现代语言学研究开始在自然语言的语义结构中识别这样的模式。但许多遵循这类路线的出色的研究工作在这一问题上碰到了困难。一个作者可能提出一种语义理论,并以20到50个英语单词为例来展示他的理论,而留下另外10万个单词让读者去做练习。
· 第三个前提就是所谓的“广泛性假设”(comprehensiveness hypothesis):计算语言学如果希望能像人那样处理自然语言,就需要像人那样储存尽可能多的词汇知识。
· 建立包含词语意义描述的大规模词库的方式之一是基于语义成分分析的词汇语义学(componential lexical semantics)的方法(也可译为义素分析法)。这种方式把一个词的意义分析为更小的概念原子的组合。不过,定义一套概念原子却非易事。事实上,WordNet主帅George.A.Miller在1976年他与Philip N. Johnson-Laird合作的《Language and Perception》一书中还踌躇满志地探索义素分析的语义描写方法,但直到1985年,仍然没有能够出笼一个完整的定义清晰的清单,在上面列举出所有的概念原子。
· 到1985年,许多认知心理学家和计算语言学家开始以“网”的形式来描述词语的意义。比如:“桌子”(table)和“家具”(furniture)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:桌子是一种家具(a table is a kind of furniture),即“Is-A-KIND-OF”这样的语义关系。随着这方面研究的增多,越来越多的人自觉地意识到:除了利用语义成分(义素分析法)表示语义,还可以利用关系来表示语义(基于关系的词汇语义学relational lexical semantics),而且后者有可能替代前者。
· 在WordNet的早期阶段,研究人员主要是在考虑用关系语义来描述词义的方式是否能够大规模地广泛使用,而不是仅仅停留在玩具式的演示水平上。到了研究人员确信这是可行的的时候,他们就编制了应用软件来把想法变成现实。实际上,在早期,Miller并没有关于构建一个大词库的完整想法。初步设想是识别由字符串组成的最重要的词节点,并探索其中的语义关系模式。当时的想法是,如果得到了正确的语义关系模式,词语的定义就能从中推理出来,因此,对于一个有关词义的关系网来说,词义的定义是多余的。
· 在1978年的时候,Miller描述了一种“自动化词典”(automated dictionary)的想法。不过那时候他完全不知道该如何实现这种想法。由于Sloan基金会,Spencer基金会,IBM公司沃盛研究中心(Watson Research Center)的支持,Miller得以一直保持着他的想法,而没有中途放弃。到1984年的时候,Miller甚至在IBM PC机上做出了45个名词的小型语义网,他把这个小网叫做“word net”。Miller在IBM和Bellcore演示了这个示例成果。他在Bellcore的一帮好友,Lance Miller, Roy Byrd, Michael Lesk, Donald Walker, Robert Amsler, 以及Stephen Hanson都鼓励他继续下去,并在技术上给予许多实际指导。
· Lesk邀请Miller参加了1985年11月在加拿大沃太卢(Waterloo)大学新牛津英语词典中心的第一次会议。Miller提交了一篇论文。Miller在那篇论文中解释这样的思想: 我们可以使
文档评论(0)