开源搜索引擎的比较..doc

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
开源搜索引擎的比较.

开源搜索引擎的比较 AComparisonofOpenSourceSearchEngines ChristianMiddleton,RicardoBaeza-Yates 作者: ChristianMiddleton /in/cmiddlet Hi5的高级工程师。 RicardoBaeza-Yates /Ricardo_Baeza-Yates Yahoo的高级研究人员。 翻译: 史春奇, 搜索工程师, 中科院计算所毕业, chunqi.shi@ 原文:/WRG/dctos/Middleton-Baeza.pdf 目录... 1 第1章简介... 2 第2章背景... 3 2.1文档收集... 4 2.1.1网页抓取... 4 2.1.2文本检索大会TREC. 4 2.2索引... 5 2.3查询和排序... 5 2.4检索评估... 6 第3章搜索引擎... 7 3.1特征... 8 3.2评估... 9 第4章比较方法... 11 4.1文档收集... 11 4.2测试比较... 12 4.3引擎安装... 12 第5章测试... 12 5.1索引... 12 5.1.1TREC-4数据集的索引测试... 12 5.1.2索引WT10g的分组。... 14 5.2查询... 15 5.2.1TREC-4数据集的查询实验... 17 5.2.2准确率和召回率的比较... 19 5.3整体评估... 19 第6章结论... 20 参考书目... 21 第1章 简介 随着互联网信息量的激增,为用户提供网上相关信息的检索成为迫切需求。而当你准备在网站上提供这种检索服务的时候,你可以选择,要么利用商业搜索引擎,要么选择开源搜索引擎。对于很多站点,采用商业搜索引擎,可能没预期的那么便捷,你得花钱,而且呀,你可能没大站点那样受人家重视。另一方面,开源搜索引擎也能提供商业搜索引擎的同类功能(部分能够处理大数据量),同时拥有开源理念带来的好处:不花钱,可以更主动地来维护软件,也通过二次开发来满足个人的需求。 现今,可以选择的开源产品很多,而要决定是采用哪个开源产品,就必须认真考虑每个开源产品的不同的特性。对这些搜索引擎划分的依据可以是开发的编程语言,索引文件的存储(倒排文件,数据库,还是其他文件格式),查询的能力(布尔运算,模糊查询,词根替换等等),排序策略,支持索引的文件类型,在线索引能力和增量索引的能力。其他值得考虑的重要因素是项目的最后更新日期,当前版本和项目的活跃度。这些因素之所以重要是因为,如果一个开源搜索引擎在近期没有更新的话,那么要满足现在的网站的话,可能存在很多的缺陷和问题。利用这些特性就可以给出一个大体上的划分,同时能够减少待选的开源产品的数目。最后,考虑不同负载的时候搜索引擎的性能,当信息量增加时,性能的如何降低的,这些也非常重要。此时,就要分析数据量和索引时间的对比情况,索引阶段所用的资源,和检索阶段的性能。 就目前我们了解的情况,本文的工作是首创,比较了17个主流搜索引擎,并且在不同的文档集合和多种查询类型的情况下,比较了索引和查询的性能。本文的目的是告诉人们遇到某种搜索需求的时候,该如何选择是最合适的开源搜索引擎。 第二章,介绍信息检索的基础概念,第三章,描述一下本文的搜索引擎,第四章,测试实验的实现思路,第五章前两节,给出实验的结果。第五章最后一节,对结果进行分析。最后,第六章进行总结。 第2章背景 信息检索(IR)是一个较广的领域,一般符合如下定义:是对信息项进行数据表示,存储,组织和访问的领域。 作为一个较广的领域,信息检索必须要能够在对信息进行处理后,用户就能够容易地访问到他们关注的信息。另一个也不失一般性的定义,描述如下:信息检索是从大量数据集合(通常是存放在本地服务器或者互联网上)中,查找满足需求的非结构化(文本)数据(文档)集。 核心思想是从可以获取到的数据中,检索出具有相关性的部分来满足用户的信息需求。为了实现这个目的,信息检索(IR)系统由几个相互关联的模块组成(图2.1)。通常这些模块含有三个方面的:索引,查找和排序。 图2.1:信息检索过程 索引:负责表示和组织所有信息,实现高效的信息访问。 查询:从索引中抽出满足用户需求的信息。 排序:尽管这是非必须的步骤,但对检索来说非常重要,启示式地对检索结果尽可能按照满足用户需求的方式排序。 2.1文档收集 要有信息可以检索的话,就要先收集信息,作为索引的入口数据。待收集文档可以是任何类型的数据,只要能从中抽取出信息来。这就有很多场景了,要具体看检索系统的应用背景了。 2.1.1网页抓取 在网页搜索的场景中,网络爬虫是相当必要的。简单来讲,爬虫是能够在网站间游走,并且将访问过的页面下载保存下来。网络爬虫种类很多,有些是商业的,也有开源的。

文档评论(0)

s4as2gs2cI + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档