基于百科词典的知识获取系统的研究和实现.pdfVIP

基于百科词典的知识获取系统的研究和实现.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于百科词典的知识获取系统的研究与实现① 许勇1宋柔2 fjE京工业大学计算机学院北京100022) 北京语言文化大学计算机系北京100083) com E-nlail:hopcxyl63@163 摘要:从各种自然语言文本中获取知识是自然语言处理技术的重要应用.本文描述了从百科辞 典文本中获取知识的探索性的研究工作,介绍了一个实验性的,限定范围的百科辞典知识获取 系统.具体工作包括:利用分词工具进行初步的词务分类;在词务分类的基础上,对处理范围 内的词条文本进行观察,以人工方式归纳其中目标知识的基q-i吾K特征的模式规则:利用YACC 工具对模式规则进行解释,进而抽取目标知识.文中给出了试验结果及分析. 关键词:自然语言处理,知识获取,信息提取 1.引言 利用计算机从各类自然语言文本中获取知识是自然语言处理技术的—个应用领域,它可以满足未来 计算机发展的智能化与知识化需求的一方面。目前来讲,从未加限制的开放文本中获取知识是不太现实 的。~种非常自然的方式是将体裁限制于词典的文本。这是因为: 1. 词典文本中的知识比较密集,从词典中获取知识效率较高。 2. 词典文本的表达方式比较有观律,与计算机的处理能力较为相匹配。 阋典文本知识获取的工作在国内外都在展开。有两种类型的j:作。一是面向计算机的,删以支持自 然语言处理应用系统的开发。Princ哟nUniversity的WordNet是利用词典文本开发的庞大的英语词汇知 识库.我国董振东教授的HowNet是有相当规模的中文词汇语义知识库,它们部是手1开发的。冗“类 1‘作是面向人的。微软公司的电子百科全书Etw_.arta能提供河诰检索、领域检索、媒体类{2抢索、时闻 拴索、地理区域检索等检索手段,帮助人从这个词典中获取白科知识。但是它只能以词条文本全文的形 式提供知识。 近年来兴起了一种和词典文本的知识获取关系非常密切的技术——信息提取(Information Exlraction)。知识也是一种信息,如果把耍提取的知识看成感兴趣的信息,那么,这个技术就可以应用 丁词典文本中的知识自动提取中。信息提取技术的应用目的是在某一撷域的文档集合中自动抽取指定信 息,加快人们获取、检索信息的速度。信息提取系统一般面向特定的领域开发,在应用领域发生改变的 时候~股都需要一定程度的重新构建。这项技术中比玟重要的是用于j苗述目例赢息的句法或者语义结构 的模式规则,系统根据这些模式来识别、提取目标信息。获取模式的方法主要有人工获取和机器自动获 取等方式,在后一种方式中大量采用了机器学习方法。人工方式的性能高,但开发量比较大。自动学习 本论文得到了以下项目和基金的支持;教育部科学技术研究重点顷目(编号∞128 方式能节省大量人力,但目前来说萁性能还有待提高· B的没计实现 2.面向百科词典的人机结合知识提取系统ENGYLl 文本知识提取和信息提取在技术、方法上很接近。但知识提取还是有和信息提取相区别的一些特瘪。 知识是信息的一种,它比—般信息更有普遍性,有更高的稳定性,也更具系统性-另外一点是,一股信 息提取系统是针对某个特定的目标领域来开发。而知识提取可以是领域限定的,也可以不是。知识6黾取 可l,埘几个相互关联的领域敝本进行处理,构筑基于i吝几个{纳啪内部互相关联的知识审系统口 我{I’ji挥了《中国大百私险书》的电子般怍为知徽谶懒的对象。这个词典的文本具}刊本裁 一致,删才多样{争陆点,并且不少卷目的文本中存在比毁统一的信息裁盏Bl式,谢算机的处理是比 较有利的。 2.1系统的功能i殳计 目前的处理范围包括以下几个部分: 1. ‘中国地理》卷目中的行政地名词条。 抽取的项目:行政隶属关系:行政功能:面积;人口;地理方位:经纬度。 其中,行政隶属关系指的是上级行政地名的列表。行政功能指的是是否省会、首府、地区行署 驻地等等。 2. (美术》卷目中的外国美术家人名词条。 抽取的项目:国籍;职业:性别;出生年月日:出生地;死亡年月日;死亡地。 之所以选择人名和地名这两种题材

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档