开源搜索引擎的比较收藏.docx

下载文档

0
0
约2.19万字
约 33页
2021-11-05 发布于江苏
举报
版权申诉
保障服务

开源搜索引擎的比较收藏.docx

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

开源搜索引擎的比较收藏 A Comparison of Open Source Search Engines Christian Middleton, Ricardo Baeza-Yates 作者： Christian Middleton /in/cmiddlet Hi5 的高级工程师。 Ricardo Baeza-Yates /Ricardo_Baeza-Yates Yahoo 的高级研究人员。翻译：史春奇，搜索工程师，中科院计算所毕业， chunqi.shi@ 原文： /WRG/dctos/Middleton-Baeza.pdf 目录开源搜索引擎的比较... 1 A Comparison of Open Source Search Engines. 1 目录... 1 第 1 章简介... 2 第 2 章背景... 3 文档收集... 4 网页抓取... 4 文本检索大会 TREC. 4 2.2 索引... 5 查询和排序... 5 检索评估... 6 第 3 章搜索引擎... 7 3.1 特征... 8 3.2 评估... 9 第 4 章比较方法... 11 4.1 文档收集... 11 4.2 测试比较... 12 4.3引擎安装... 12 第 5 章测试... 12 5.1 索引... 12 TREC-数4 据集的索引测试... 12 索引 WT10g 的分组。... 14 5.2 查询... 15 TREC-数4 据集的查询实验... 17 准确率和召回率的比较... 19 5.3整体评估... 19 第 6 章结论... 20 参考书目... 21 第 1 章简介随着互联网信息量的激增，为用户提供网上相关信息的检索成为迫切需求。而当你准备在网站上提供这种检索服务的时候，你可以选择，要么利用商业搜索引擎，要么选择开源搜索引擎。对于很多站点，采用商业搜索引擎，可能没预期的那么便捷，你得花钱，而且呀，你可能没大站点那样受人家重视。另一方面，开源搜索引擎也能提供商业搜索引擎的同类功能（部分能够处理大数据量），同时拥有开源理念带来的好处：不花钱，可以更主动地来维护软件，也通过二次开发来满足个人的需求。现今，可以选择的开源产品很多，而要决定是采用哪个开源产品，就必须认真考虑每个开源产品的不同的特性。对这些搜索引擎划分的依据可以是开发的编程语言，索引文件的存储（倒排文件，数据库，还是其他文件格式），查询的能力（布尔运算，模糊查询，词根替换等等），排序策略，支持索引的文件类型，在线索引能力和增量索引的能力。其他值得考虑的重要因素是项目的最后更新日期，当前版本和项目的活跃度。这些因素之所以重要是因为，如果一个开源搜索引擎在近期没有更新的话，那么要满足现在的网站的话，可能存在很多的缺陷和问题。利用这些特性就可以给出一个大体上的划分，同时能够减少待选的开源产品的数目。最后，考虑不同负载的时候搜索引擎的性能，当信息量增加时，性能的如何降低的，这些也非常重要。此时，就要分析数据量和索引时间的对比情况，索引阶段所用的资源，和检索阶段的性能。就目前我们了解的情况，本文的工作是首创，比较了 17 个主流搜索引擎，并且在不同的文档集合和多种查询类型的情况下，比较了索引和查询的性能。本文的目的是告诉人们遇到某种搜索需求的时候，该如何选择是最合适的开源搜索引擎。第二章，介绍信息检索的基础概念，第三章，描述一下本文的搜索引擎，第四章，测试实验的实现思路，第五章前两节，给出实验的结果。第五章最后一节，对结果进行分析。最后，第六章进行总结。第 2 章背景信息检索（IR）是一个较广的领域，一般符合如下定义：是对信息项进行数据表示，存储，组织和访问的领域。作为一个较广的领域，信息检索必须要能够在对信息进行处理后，用户就能够容易地访问到他们关注的信息。另一个也不失一般性的定义，描述如下：信息检索是从大量数据集合（通常是存放在本地服务器或者互联网上）中，查找满足需求的非结构化（文本）数据（文档）集。核心思想是从可以获取到的数据中，检索出具有相关性的部分来满足用户的信息需求。为了实现这个目的，信息检索（IR）系统由几个相互关联的模块组成（图 2.1）。通常这些模块含有三个方面的：索引，查找和排序。图 2.1：信息检索过程索引：负责表示和组织所有信息，实现高效的信息访问。查询：从索引中抽出满足用户需求的信息。排序：尽管这是非必须的步骤，但对检索来说非常重要，启示式地对检索结果尽可能按照满足用户需求的方式排序。文档收集要有信息可以检索的话，就要先收集信息，作为索引的入口数据

您可能关注的文档

文档评论（0）

始终如一 + 关注: 官方认证

内容提供者

始终如一输出优质文档！

咨询Ta 进入空间

认证主体苏州市致远互联网科技有限公司

IP属地江苏

统一社会信用代码/组织机构代码: 91320582MA27GAWJ0R

1亿VIP精品文档

更多 >

开源搜索引擎的比较收藏.docx