- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
开源搜索引擎的比较 收藏
A Comparison of Open Source Search Engines Christian Middleton, Ricardo Baeza-Yates 作者:
Christian Middleton
/in/cmiddlet Hi5 的高级工程师。
Ricardo Baeza-Yates /Ricardo_Baeza-Yates Yahoo 的高级研究人员。
翻译: 史春奇,
搜索工程师,
中科院计算所毕业, chunqi.shi@
原文: /WRG/dctos/Middleton-Baeza.pdf
目录
开源搜索引擎的比较... 1
A Comparison of Open Source Search Engines. 1 目录... 1
第 1 章 简介... 2
第 2 章 背景... 3
文档收集... 4
网页抓取... 4
文本检索大会 TREC. 4
2.2 索引... 5
查询和排序... 5
检索评估... 6
第 3 章 搜索引擎... 7
3.1 特征... 8
3.2 评估... 9
第 4 章 比较方法... 11
4.1 文档收集... 11
4.2 测试比较... 12 4.3引擎安装... 12 第 5 章 测试... 12 5.1 索引... 12
TREC-数4 据集的索引测试... 12
索引 WT10g 的分组。... 14
5.2 查询... 15
TREC-数4 据集的查询实验... 17
准确率和召回率的比较... 19
5.3整体评估... 19
第 6 章 结论... 20
参考书目... 21
第 1 章 简介
随着互联网信息量的激增, 为用户提供网上相关信息的检索成为迫切需求。而当你准备在网站上提供这种检索服务的时候, 你可以选择, 要么利用商业搜索引擎,要么选择开源搜索引擎。对于很多站点, 采用商业搜索引擎, 可能没预期的那么便捷, 你得花钱, 而且呀, 你可能没大站点那样受人家重视。 另一方面,开源搜索引擎也能提供商业搜索引擎的同类功能(部分能够处理大数据量), 同时拥有开源理念带来的好处: 不花钱,可以更主动地来维护软件,也通过二次开发来满足个人的需求。
现今,可以选择的开源产品很多, 而要决定是采用哪个开源产品, 就必须认真考虑每个开源产品的不同的特性。对这些搜索引擎划分的依据可以是开发的编程语言, 索引文件的存储(倒排文件, 数据库, 还是其他文件格式), 查询的能力(布尔运算, 模糊查询, 词根替换等等), 排序策略, 支持索引的文件类型, 在线索引能力和增量索引的能力。 其他值得考虑的重要因素是项目的最后更新日期, 当前版本和项目的活跃度。 这些因素之所以重要是因为,如果一个开源搜索引擎在近期没有更新的话,那么要满足现在的网站的话, 可能存在很多的缺陷和问题。 利用这些特性就可以给出一个大体上的划分, 同时能够减少 待选的开源产品的数目。 最后, 考虑不同负载的时候搜索引擎的性能, 当信息量增加时, 性能的如何降低的,这些也非常重要。 此时,就要分析数据量和索引时间的对比情况, 索引阶段所用的资源, 和检索阶段的性能。
就目前我们了解的情况, 本文的工作是首创,比较了 17 个主流搜索引擎, 并且在不同的文档集合和多种查询类型的情况下,比较了索引和查询的性能。本文的目的是告诉人们遇到某种搜索需求的时候,该如何选择是最合适的开源搜索引擎。
第二章, 介绍信息检索的基础概念, 第三章, 描述一下本文的搜索引擎, 第四章, 测试实验的实现思路, 第五章前两节, 给出实验的结果。 第五章最后一节, 对结果进行分析。 最后, 第六章进行总结。
第 2 章 背景
信息检索(IR)是一个较广的领域, 一般符合如下定义: 是对信息项进行数据表示, 存储, 组织和访问的领域。
作为一个较广的领域, 信息检索必须要能够在对信息进行处理后,用户就能够容易地访问到他们关注的信息。 另一个也不失一般性的定义,描述如下:信息检索是从大量数据集合
(通常是存放在本地服务器或者互联网上)中, 查找满足需求的非结构化(文本)数据(文档)集。
核心思想是从可以获取到的数据中,检索出具有相关性的部分来满足用户的信息需求。 为了实现这个目的, 信息检索(IR)系统由几个相互关联的模块组成(图 2.1)。通常这些模块含有三个方面的: 索引, 查找和排序。
图 2.1:信息检索过程
索引:负责表示和组织所有信息, 实现高效的信息访问。查询:从索引中抽出满足用户需求的信息。
排序:尽管这是非必须的步骤, 但对检索来说非常重要, 启示式地对检索结果尽可能按照满足用户需求的方式排序。
文档收集
要有信息可以检索的话,就要先收集信息,作为索引的入口数据
文档评论(0)