Web信息检索技术的探讨.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息检索技术的探讨

Web信息检索技术的探讨 科技情报开发与经济 SCI-TECH INFORMATION DEVELOPMENT& ECONOMY 2010年第 20卷第 5期 文章编号:1005-6033(2010)05-0105-05收稿日期:2010-01-07 Web信息检索技术的探讨 赵静,张鸿业 (河海大学,江苏南京,210098) 摘要:随着互联网技术的蓬勃发展,基于 Web的信息成指数增长,如何在海量信息中 获取自己真正需要的信息成为巨大挑战。因此,基于 Web信息检索技术随之孕育产生。 详细介绍了基于文本的和基于图像的检索技术,并对几种传统的文本检索模型进行了 对比,指出了它们各自研究的焦点。 关键词:Web信息检索技术;文本检索技术;文本检索模型;图像检索技术 中图分类号:G354文献标识码:A 随着信息时代的到来,尤其是互联网技术的高速发展,网络 中各种类型的 Web网站数量成倍增长,这些 Web信息形成了巨 大的信息资源。但是随之也出现了许多问题,例如,低价值信息 和高价值信息混杂在一起,大量重复性信息出现在不同网站中, 大量不准确甚至是错误的、垃圾信息充斥在各个 Web站点中。因 此,如何快速有效地提取出人们所需要的信息,成为当前迫切需 要解决的问题。在学术界,信息检索技术成为一门新兴学科,发 展极为迅速。在产业界,当前各种信息搜索引擎也不断涌现,如 百度、雅虎、Google等。 Web信息资源大体可以分成两类:纯文本格式的信息和多 媒体(图像、影视频)信息,本文主要探讨基于文本检索的原理和 相关技术、基于图像检索的一些关键技术等。 1基于文本的检索技术 1.1基于文本检索的工作流程 在海量的信息中获取真正需要的信息,顺序搜索的响应时 间将变得不可忍受。解决搜索响应时间的办法是对文本文档库 中的文本进行预处理,为文本文档库建立一种便于搜索的数据 结构— ———索引。基于索引的检索技术非常适用于大规模、稳定的 或周期性变化的文本文档库,如今绝大部分搜索引擎采用的都 是基于索引的检索技术。基于索引的检索过程见图 1。 文本文档库文档文本提取文本字符串文本预处理 查询索引查询系统索引 用户 相关文档列表排序结果排序系统 (1)检索系统将所有的检索对象收集起来,构建集中的本地 文本文档库,例如,对于 Web搜索引擎,其检索对象主要是 Web 网页,因此搜索引擎需要从互联网上抓取尽可能多的网页保存 到本地文本文档库中,一般这个过程由程序(网络爬虫)自动完 成。 (2)本地文本文档库构建完成之后,检索系统提取文本文档 图 1基于索引的检索技术 库中文档的文本字符串,并进行文本预处理。文本提取过程主要 是提取各种格式文档中的字符串。文本检索系统不仅面向互联 网的 Web网页,还面向各种文档类型,例如 XML,PDF,Microsoft Word或者 Excel等类型的文档。 (3)提取出文本字符串后,还需对文本字符串进行预处理以 选择合适的词来建立索引。对文本字符串的预处理包括分词(将 文本中包含的词分析出来)、停用词删除(删除冠词、介词等)、词 干提取、索引词的选择和建立词典等。 (4)在有了文本预处理结果后,需要建立文档的索引。利用 文档索引可以大大提高信息检索的速度。文档索引是一种便于 用词检索的数据结构。 (5)在建立文档索引后,就可以对文档库中文档进行检索。 用户提交查询后,检索系统将直接访问索引。由于索引是一个可 以便于搜索的数据结构,检索系统可以通过索引快速获得与查 询相关的文档集合。 (6)在获取与查询相关的文档后,由排序系统评价相关文档 与查询的相关程度并对其排序,最后返回给用户。 1.2文档索引的工作原理 文档索引是一种便于用词检索的数据结构。常见的索引数 据结构有 3种:倒排文件[1](inverted file),后缀树[2](suffix tree) 和签名文件[3]在 (signature file)。倒排文件对词的搜索非常有效, 大多数应用中比后缀树和签名文件的效果好,因此在文本检索 中应用最为广泛。 我们以倒排文件为例来探讨文档索引的工作原理。倒排文 件,或称倒排索引、倒排表,是一种索引数据结构,用来提高查询 速度。倒排文件一般由词汇表和词出现情况两部分组成(见图 2)。词汇表一般采用特殊的数据结构(Hash技术、trie树或B-树) 存储来提高词的查询速度。对于词汇表中的每个词,在词汇出现 情况中都有一个列表来记录词在所有文本中的出现位置。基于 倒排文件的搜索一般分为如下 3个步骤: (1)词汇表查询:将用户提交的查询语句分割成独立的词, 在词汇表

文档评论(0)

ah82299 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档