- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于本体论的信息检索.PDF
云南大 学学报 ( 自然科 学版) , 2003 , 25 ( 4) : 324~327 CN 53 - 1045/ N ISSN 0258 - 7971
Journal of Yunnan University
基于本体论的信息检索
郭祥文 , 刘惟一 , 钱 民 , 张忠玉
(云南大学 计算机科学与工程系 ,云南 昆明 65009 1)
摘要 :将本体论应用于信息检索 ,提出了基于本体论的信息检索模型. 该模型支持用户查询的导引 ,并按领
域分类有选择地返回查询信息.
关键词 :本体论 ;信息检索 ;全文检索 ;领域分类
( )
中图分类号 : TP 182 文献标识码 :A 文章编号 :0258 - 797 1 2003 04 - 0324 - 04
随着信息技术的发展 ,特别是 Internet 应用的 回的信息太多. 更严重的是 , 除了综合性的搜索引
普及 ,人们已从信息缺乏的时代过渡到了信息极大 擎站点有这个现象之外 ,现在较大的站点对 自身站
丰富的时代. Internet 上信息分布在位于不同位置 内信息的检索也会返回大量的网页. 传统的文本信
( ) (
的站点上 ,据统计到 1997 年夏季已经有 1. 5 亿个 息检索一般使用查全率 Recall 与查准率 Preci
Web 主页分布在 65 万个站点上[ 1 ] . sion) 来对检索效果进行量化评价 ,但是在信息海
目前网络上的搜索引擎一般使用 2 种技术来 量的互联网上 ,信息检索用查全率与查准率来衡量
实现信息检索 :一是使用网站分类技术 , 即把网站 检索效果不太合适. 在一些场合 ,高的查全率带来
进行树状的归类 ,登录的网站属于至少一个类别 , 的成千上万的命中网页. 在网页爆炸性增长的今
对每个站点都有简略的描述. 雅虎采用了这种方 天 ,没有一个用户有时间和精力来浏览搜索引擎查
法. 为了分类科学准确 , 需要有一支由各科人才组 到的网页. 当前的搜索引擎的缺点是不支持用户的
成的维护队伍. 二是使用全文检索技术. 全文检索 信息导引. 本文提出了基于本体论的信息检索 ,支
(
技术处理的对象是文本 ,它能够对大量文档 这里 持领域的分类 ,并按领域分类有选择地返回网页 ,
) ( )
是大量网页数据 建立 由字 词 到文档的倒排索 提高了检索的效率.
( )
引 ,在此基础上 ,用户使用关键词来对文档 网页
1 本体论的基本概念
进行查询时 , 系统将给用户返回含该关键词的网
页. 本体论 是对概念 化对 象 的 明确表 示和描
一般来说 , 由于使用了专家来对网站进行归纳 述[2 ,3 ] . Nicala Guarino 把概念化对
文档评论(0)