- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机光盘软件与应用
2012年第22期 ComputerCDSoftwareandApplications 工程技术
一 种面向主题的web知识检索方法
马酷
(山西农业大学信息学院,山西晋中 030800)
摘要:知识检索研究如何从数据和信息中抽取知识,在数据和信息 日益增长的今天,知识检索显得尤为重要。现有
的知识检索主要以事先构造好的知识库为基础,需要通过专家来构建和维护用于检索的知识库。然而,人工构建知识库
非常耗时而且代价很高,而且,基于事先构造好的知识库的检索结果也被局限于知识库覆盖的范围,不具有动态性和时
变性。本文提出了一种基于Web的面向主题的知识检索方法。该方法一方面以开放动态的Web信息为基础,支持动态
即时的知识检索;另一方面,以用户选定的主题为中心,从Web信息中动态获取知识,构成与用户主题相关的知识检索
结果,不局限于某个特定领城。
关键词 :面向主题 ;知识检索;Web知识源;共现分析
中图分类号:TP391.3 文献标识码:A 文章编号:1007—9599(2012)22—0153—02
1 简介 科、图片,社交网站和问答等各类信息的集成检索结果。
知识检索通过抽取数据和信息中的概念 以及概念间的 这表明,在线知识检索正在进入人们的视野,基于web
关系来组织知识并反馈给用户。从用户的角度看,它提供 的知识检索将成为下一代搜索引擎的主要关注点之一。
是结构化的内容;从计算机的角度看,它提供的是机器可 目前,上述面向知识的Web检索服务主要关注的是查询
读的内容。因此,知识检索的返回结果既能够用结构化信 关键字的特定属性的值,属于概念定义型知识。而与查询关
息的方式回答用户查询的问题,也能够作为知识应用到基 键字以及它与其它相关概念的关系是另一类具有典型意义
于知识的系统中。在数据和信息 日益增长的今天,知识检 的知识,即概念关联型知识。本文侧重在面向主题的概念关
索显得尤为重要。 联型知识的在线提取,从某种意义上说,概念关联型知识是
然而,现有的知识检索主要以事先构造好的知识库为 面向主题的知识体系的骨架,它强调主题概念与其相关概念
基础,需要通过专家来构建和维护用于检索的知识库。这 之间的关系,通过这些关系来表征主题概念的含义。
种手动的方式耗时耗力,代价高,如,已对超过5500份生 本文提出的面向主题的Web知识检索的方法,以结构
物信息学期刊进行索引的知识库MEDLINE在引人新期刊 化的Web信息源为基础,以用户给定检索主题词为出发点。
之前需要先通过专家组推荐,再经过文献选择技术审查委 构建以该主题词为中心的结构化概念关联网作为知识检索
员的评估,同时,以事先构造好的知识库为基础的检索结 的结果。
果也局限于知识库覆盖的范围,不能将新出现的知识即时 2 面向主题的知识检索
吸纳其中。 本节分3个方面介绍本文提出的面向主题的知识检索
目前,Web以其海量信息和多样化的内容被许多研究 方法。首先介绍我们对知识源选取的考虑,其次介绍概念
者所关注。Wilipedia是近年来最受关注的研究对象之一, 关联网络的提取方法,最后介绍知识检索结果的展示。
分别利用 Wikipedia的分类系统和百科条 目的具体内容作 2.1 Web知识源的选取
为概念间语义相关度的评估凭证,在Wikipedia的分类系统 对在线知识提取而言,是否选择了合适的知识源直接
上派生出一个大型的分类法 (taxonomy),分别使用 影响到知识提取的效果。目前,常用的Web知识源大致可
Wikipedia作为概念间关系学习和命名实体识别的背景知 分为三类:在线辞典、在线百科全书以及搜索引擎,其知
识;此外,使用搜索引擎来计算概念在Web上的统计分布, 识内部组织方式和外部表现形式都不同。比如,在线辞典
使用在
文档评论(0)