- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
开源搜索引擎的比较.
开源搜索引擎的比较
AComparisonofOpenSourceSearchEngines
ChristianMiddleton,RicardoBaeza-Yates
作者:
ChristianMiddleton
/in/cmiddlet
Hi5的高级工程师。
RicardoBaeza-Yates
/Ricardo_Baeza-Yates
Yahoo的高级研究人员。
翻译:
史春奇,
搜索工程师,
中科院计算所毕业,
chunqi.shi@
原文:/WRG/dctos/Middleton-Baeza.pdf
目录... 1
第1章简介... 2
第2章背景... 3
2.1文档收集... 4
2.1.1网页抓取... 4
2.1.2文本检索大会TREC. 4
2.2索引... 5
2.3查询和排序... 5
2.4检索评估... 6
第3章搜索引擎... 7
3.1特征... 8
3.2评估... 9
第4章比较方法... 11
4.1文档收集... 11
4.2测试比较... 12
4.3引擎安装... 12
第5章测试... 12
5.1索引... 12
5.1.1TREC-4数据集的索引测试... 12
5.1.2索引WT10g的分组。... 14
5.2查询... 15
5.2.1TREC-4数据集的查询实验... 17
5.2.2准确率和召回率的比较... 19
5.3整体评估... 19
第6章结论... 20
参考书目... 21
第1章 简介
随着互联网信息量的激增,为用户提供网上相关信息的检索成为迫切需求。而当你准备在网站上提供这种检索服务的时候,你可以选择,要么利用商业搜索引擎,要么选择开源搜索引擎。对于很多站点,采用商业搜索引擎,可能没预期的那么便捷,你得花钱,而且呀,你可能没大站点那样受人家重视。另一方面,开源搜索引擎也能提供商业搜索引擎的同类功能(部分能够处理大数据量),同时拥有开源理念带来的好处:不花钱,可以更主动地来维护软件,也通过二次开发来满足个人的需求。
现今,可以选择的开源产品很多,而要决定是采用哪个开源产品,就必须认真考虑每个开源产品的不同的特性。对这些搜索引擎划分的依据可以是开发的编程语言,索引文件的存储(倒排文件,数据库,还是其他文件格式),查询的能力(布尔运算,模糊查询,词根替换等等),排序策略,支持索引的文件类型,在线索引能力和增量索引的能力。其他值得考虑的重要因素是项目的最后更新日期,当前版本和项目的活跃度。这些因素之所以重要是因为,如果一个开源搜索引擎在近期没有更新的话,那么要满足现在的网站的话,可能存在很多的缺陷和问题。利用这些特性就可以给出一个大体上的划分,同时能够减少待选的开源产品的数目。最后,考虑不同负载的时候搜索引擎的性能,当信息量增加时,性能的如何降低的,这些也非常重要。此时,就要分析数据量和索引时间的对比情况,索引阶段所用的资源,和检索阶段的性能。
就目前我们了解的情况,本文的工作是首创,比较了17个主流搜索引擎,并且在不同的文档集合和多种查询类型的情况下,比较了索引和查询的性能。本文的目的是告诉人们遇到某种搜索需求的时候,该如何选择是最合适的开源搜索引擎。
第二章,介绍信息检索的基础概念,第三章,描述一下本文的搜索引擎,第四章,测试实验的实现思路,第五章前两节,给出实验的结果。第五章最后一节,对结果进行分析。最后,第六章进行总结。
第2章背景
信息检索(IR)是一个较广的领域,一般符合如下定义:是对信息项进行数据表示,存储,组织和访问的领域。
作为一个较广的领域,信息检索必须要能够在对信息进行处理后,用户就能够容易地访问到他们关注的信息。另一个也不失一般性的定义,描述如下:信息检索是从大量数据集合(通常是存放在本地服务器或者互联网上)中,查找满足需求的非结构化(文本)数据(文档)集。
核心思想是从可以获取到的数据中,检索出具有相关性的部分来满足用户的信息需求。为了实现这个目的,信息检索(IR)系统由几个相互关联的模块组成(图2.1)。通常这些模块含有三个方面的:索引,查找和排序。
图2.1:信息检索过程
索引:负责表示和组织所有信息,实现高效的信息访问。
查询:从索引中抽出满足用户需求的信息。
排序:尽管这是非必须的步骤,但对检索来说非常重要,启示式地对检索结果尽可能按照满足用户需求的方式排序。
2.1文档收集
要有信息可以检索的话,就要先收集信息,作为索引的入口数据。待收集文档可以是任何类型的数据,只要能从中抽取出信息来。这就有很多场景了,要具体看检索系统的应用背景了。
2.1.1网页抓取
在网页搜索的场景中,网络爬虫是相当必要的。简单来讲,爬虫是能够在网站间游走,并且将访问过的页面下载保存下来。网络爬虫种类很多,有些是商业的,也有开源的。
您可能关注的文档
- 建设项目职业病危害控制效果评价导则(AQT8010-2013)..docx
- 建设项目论证报告..doc
- 建设项目责任成本管理..docx
- 建造师实务试题2222..doc
- 建造师历年真题及答案(建设工程经济)..doc
- 开关柜综合在线监测解决方案..doc
- 开关电源EMI滤波器的正确选择与使用..doc
- 开关电源中几种过流保护方式的电路比较分析..doc
- 开关电源功率变压器的设计方法..doc
- 开乐网站重建策划方案..docx
- 2024年江西省高考政治试卷真题(含答案逐题解析).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)物理试卷(含答案详解).pdf
- 2025年四川省新高考八省适应性联考模拟演练(二)地理试卷(含答案详解).pdf
- 2024年内蒙通辽市中考化学试卷(含答案逐题解析).docx
- 2024年四川省攀枝花市中考化学试卷真题(含答案详解).docx
- (一模)长春市2025届高三质量监测(一)化学试卷(含答案).pdf
- 2024年安徽省高考政治试卷(含答案逐题解析).pdf
- (一模)长春市2025届高三质量监测(一)生物试卷(含答案).pdf
- 2024年湖南省高考政治试卷真题(含答案逐题解析).docx
- 2024年安徽省高考政治试卷(含答案逐题解析).docx
最近下载
- 闽教版4年级上册英语全册教学课件.pptx
- 浅谈当前我国建筑企业人力资源管理论文.docx VIP
- 浅谈建筑企业人力资源管理论文.docx VIP
- 广东省惠州市高2024届高三上学期第三次调研考试数学试题.pdf
- 病毒性肺炎影像.pptx VIP
- 新教材牛津译林版选择性必修第二册Unit1 The mass media 教学设计.pdf VIP
- (完整版)职业卫生培训试题含答案.pdf
- 初一第一学期第一次家长会课件.ppt VIP
- 惠州市2024届高三第三次调研考试(三调)思想政治试卷(含答案).pdf
- 2024-2025学年上海交通大学附属中高三上学期阶段测试3英语试卷含详解.pdf VIP
文档评论(0)