Web信息检索技术的探讨.docVIP

下载本文档

4
0
约1.61万字
约 47页
2016-09-22 发布于河南
举报
版权申诉

Web信息检索技术的探讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web信息检索技术的探讨

Web信息检索技术的探讨科技情报开发与经济 SCI-TECH INFORMATION DEVELOPMENT＆ ECONOMY 2010年第 20卷第 5期文章编号：1005－6033（2010）05－0105-05收稿日期：2010－01－07 Web信息检索技术的探讨赵静，张鸿业（河海大学，江苏南京，210098）摘要：随着互联网技术的蓬勃发展，基于 Web的信息成指数增长，如何在海量信息中获取自己真正需要的信息成为巨大挑战。因此，基于 Web信息检索技术随之孕育产生。详细介绍了基于文本的和基于图像的检索技术，并对几种传统的文本检索模型进行了对比，指出了它们各自研究的焦点。关键词：Web信息检索技术；文本检索技术；文本检索模型；图像检索技术中图分类号：G354文献标识码：A 随着信息时代的到来，尤其是互联网技术的高速发展，网络中各种类型的 Web网站数量成倍增长，这些 Web信息形成了巨大的信息资源。但是随之也出现了许多问题，例如，低价值信息和高价值信息混杂在一起，大量重复性信息出现在不同网站中，大量不准确甚至是错误的、垃圾信息充斥在各个 Web站点中。因此，如何快速有效地提取出人们所需要的信息，成为当前迫切需要解决的问题。在学术界，信息检索技术成为一门新兴学科，发展极为迅速。在产业界，当前各种信息搜索引擎也不断涌现，如百度、雅虎、Google等。 Web信息资源大体可以分成两类：纯文本格式的信息和多媒体（图像、影视频）信息，本文主要探讨基于文本检索的原理和相关技术、基于图像检索的一些关键技术等。 1基于文本的检索技术 1.1基于文本检索的工作流程在海量的信息中获取真正需要的信息，顺序搜索的响应时间将变得不可忍受。解决搜索响应时间的办法是对文本文档库中的文本进行预处理，为文本文档库建立一种便于搜索的数据结构— ———索引。基于索引的检索技术非常适用于大规模、稳定的或周期性变化的文本文档库，如今绝大部分搜索引擎采用的都是基于索引的检索技术。基于索引的检索过程见图 1。文本文档库文档文本提取文本字符串文本预处理查询索引查询系统索引用户相关文档列表排序结果排序系统（1）检索系统将所有的检索对象收集起来，构建集中的本地文本文档库，例如，对于 Web搜索引擎，其检索对象主要是 Web 网页，因此搜索引擎需要从互联网上抓取尽可能多的网页保存到本地文本文档库中，一般这个过程由程序（网络爬虫）自动完成。（2）本地文本文档库构建完成之后，检索系统提取文本文档图 1基于索引的检索技术库中文档的文本字符串，并进行文本预处理。文本提取过程主要是提取各种格式文档中的字符串。文本检索系统不仅面向互联网的 Web网页，还面向各种文档类型，例如 XML，PDF，Microsoft Word或者 Excel等类型的文档。（3）提取出文本字符串后，还需对文本字符串进行预处理以选择合适的词来建立索引。对文本字符串的预处理包括分词（将文本中包含的词分析出来）、停用词删除（删除冠词、介词等）、词干提取、索引词的选择和建立词典等。（4）在有了文本预处理结果后，需要建立文档的索引。利用文档索引可以大大提高信息检索的速度。文档索引是一种便于用词检索的数据结构。（5）在建立文档索引后，就可以对文档库中文档进行检索。用户提交查询后，检索系统将直接访问索引。由于索引是一个可以便于搜索的数据结构，检索系统可以通过索引快速获得与查询相关的文档集合。（6）在获取与查询相关的文档后，由排序系统评价相关文档与查询的相关程度并对其排序，最后返回给用户。 1.2文档索引的工作原理文档索引是一种便于用词检索的数据结构。常见的索引数据结构有 3种：倒排文件［1］（inverted file），后缀树［2］（suffix tree）和签名文件［3］在（signature file）。倒排文件对词的搜索非常有效，大多数应用中比后缀树和签名文件的效果好，因此在文本检索中应用最为广泛。我们以倒排文件为例来探讨文档索引的工作原理。倒排文件，或称倒排索引、倒排表，是一种索引数据结构，用来提高查询速度。倒排文件一般由词汇表和词出现情况两部分组成（见图 2）。词汇表一般采用特殊的数据结构（Hash技术、trie树或B－树）存储来提高词的查询速度。对于词汇表中的每个词，在词汇出现情况中都有一个列表来记录词在所有文本中的出现位置。基于倒排文件的搜索一般分为如下 3个步骤：（1）词汇表查询：将用户提交的查询语句分割成独立的词，在词汇表