- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息检索技术的探讨
Web信息检索技术的探讨
科技情报开发与经济
SCI-TECH
INFORMATION
DEVELOPMENT&
ECONOMY
2010年第
20卷第
5期
文章编号:1005-6033(2010)05-0105-05收稿日期:2010-01-07
Web信息检索技术的探讨
赵静,张鸿业
(河海大学,江苏南京,210098)
摘要:随着互联网技术的蓬勃发展,基于
Web的信息成指数增长,如何在海量信息中
获取自己真正需要的信息成为巨大挑战。因此,基于
Web信息检索技术随之孕育产生。
详细介绍了基于文本的和基于图像的检索技术,并对几种传统的文本检索模型进行了
对比,指出了它们各自研究的焦点。
关键词:Web信息检索技术;文本检索技术;文本检索模型;图像检索技术
中图分类号:G354文献标识码:A
随着信息时代的到来,尤其是互联网技术的高速发展,网络
中各种类型的
Web网站数量成倍增长,这些
Web信息形成了巨
大的信息资源。但是随之也出现了许多问题,例如,低价值信息
和高价值信息混杂在一起,大量重复性信息出现在不同网站中,
大量不准确甚至是错误的、垃圾信息充斥在各个
Web站点中。因
此,如何快速有效地提取出人们所需要的信息,成为当前迫切需
要解决的问题。在学术界,信息检索技术成为一门新兴学科,发
展极为迅速。在产业界,当前各种信息搜索引擎也不断涌现,如
百度、雅虎、Google等。
Web信息资源大体可以分成两类:纯文本格式的信息和多
媒体(图像、影视频)信息,本文主要探讨基于文本检索的原理和
相关技术、基于图像检索的一些关键技术等。
1基于文本的检索技术
1.1基于文本检索的工作流程
在海量的信息中获取真正需要的信息,顺序搜索的响应时
间将变得不可忍受。解决搜索响应时间的办法是对文本文档库
中的文本进行预处理,为文本文档库建立一种便于搜索的数据
结构—
———索引。基于索引的检索技术非常适用于大规模、稳定的
或周期性变化的文本文档库,如今绝大部分搜索引擎采用的都
是基于索引的检索技术。基于索引的检索过程见图
1。
文本文档库文档文本提取文本字符串文本预处理
查询索引查询系统索引
用户
相关文档列表排序结果排序系统
(1)检索系统将所有的检索对象收集起来,构建集中的本地
文本文档库,例如,对于
Web搜索引擎,其检索对象主要是
Web
网页,因此搜索引擎需要从互联网上抓取尽可能多的网页保存
到本地文本文档库中,一般这个过程由程序(网络爬虫)自动完
成。
(2)本地文本文档库构建完成之后,检索系统提取文本文档
图
1基于索引的检索技术
库中文档的文本字符串,并进行文本预处理。文本提取过程主要
是提取各种格式文档中的字符串。文本检索系统不仅面向互联
网的
Web网页,还面向各种文档类型,例如
XML,PDF,Microsoft
Word或者
Excel等类型的文档。
(3)提取出文本字符串后,还需对文本字符串进行预处理以
选择合适的词来建立索引。对文本字符串的预处理包括分词(将
文本中包含的词分析出来)、停用词删除(删除冠词、介词等)、词
干提取、索引词的选择和建立词典等。
(4)在有了文本预处理结果后,需要建立文档的索引。利用
文档索引可以大大提高信息检索的速度。文档索引是一种便于
用词检索的数据结构。
(5)在建立文档索引后,就可以对文档库中文档进行检索。
用户提交查询后,检索系统将直接访问索引。由于索引是一个可
以便于搜索的数据结构,检索系统可以通过索引快速获得与查
询相关的文档集合。
(6)在获取与查询相关的文档后,由排序系统评价相关文档
与查询的相关程度并对其排序,最后返回给用户。
1.2文档索引的工作原理
文档索引是一种便于用词检索的数据结构。常见的索引数
据结构有
3种:倒排文件[1](inverted
file),后缀树[2](suffix
tree)
和签名文件[3]在
(signature
file)。倒排文件对词的搜索非常有效,
大多数应用中比后缀树和签名文件的效果好,因此在文本检索
中应用最为广泛。
我们以倒排文件为例来探讨文档索引的工作原理。倒排文
件,或称倒排索引、倒排表,是一种索引数据结构,用来提高查询
速度。倒排文件一般由词汇表和词出现情况两部分组成(见图
2)。词汇表一般采用特殊的数据结构(Hash技术、trie树或B-树)
存储来提高词的查询速度。对于词汇表中的每个词,在词汇出现
情况中都有一个列表来记录词在所有文本中的出现位置。基于
倒排文件的搜索一般分为如下
3个步骤:
(1)词汇表查询:将用户提交的查询语句分割成独立的词,
在词汇表
文档评论(0)