云计算的环境下集群式搜索引擎技术的研究.docVIP

下载本文档

5
0
约2.72千字
约 6页
2018-10-27 发布于福建
举报
版权申诉

云计算的环境下集群式搜索引擎技术的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

云计算的环境下集群式搜索引擎技术的研究

云计算的环境下集群式搜索引擎技术的研究　　摘要：基于分布式技术构建的搜索引擎系统，能够基于其分布式等特点，有效地处理海量数据，并提供分布式检索服务，较好地解决了以往面临的种种问题。一般来说，数据和程序分别部署到多个服务器上，集群搜索引擎的基本思想也就是把海量的网页数据进行分散存储，通过多机的处理能力，集中解决协同索引和检索的问题。　　关键词：搜索引擎集群爬虫　　中图分类号：TP391 文献标识码：A 文章编号：1007-9416（2015）11-0000-00 　　1 引言　　目前，如何从互联网这个庞大的信息资料库中获取数据，并进行有效地处理被认为是搜索技术的核心竞争点。所以，分布式技术被很好地应用到该领域，因为基于分布式技术构建的搜索引擎系统，能够基于其分布式等特点，有效地处理海量数据，并提供分布式检索服务，较好地解决了以往面临的种种问题。同传统单机搜索引擎相比，集群搜索引擎有以下优点[1]：　　（1）各检索服务器之间协同工作，每个服务器只搜索自身自治区域内的信息资源，彼此之间只传递搜索结果信息，加快了检索速度，减轻网络及各站点的负担；　　（2）与网络资源本身的分布式特性相适应，增加搜索服务器方便，有良好的可扩展性；　　（3）索引信息分到各个数据库中，使得各索引数据库规模小，易于管理，缩短查询响应时间。　　由于搜索引擎巨大的商业价值和学术研究价值，各大公司都在投巨资进行搜索引擎的研制开发，不断地涌现出新的具有鲜明特色的搜索引擎产品[2]。同时，各大科研机构和大学纷纷展开对搜索引擎技术相关领域的学术研究，搜索引擎己经成为信息检索领域中最活跃的研究方向[3]。集群搜索引擎的基本思想也就是把海量的网页数据进行分散存储，通过多机的处理能力，集中解决协同索引和检索的问题。利用大量结点整合计算资源，从而在数据可靠性和有有效性两方面来最大限度的满足用户的需求[4]。中国有4亿网民，2亿多的搜索引擎活跃用户，毋庸置疑的成为搜索市场里不容忽视的一支力量。如何更好的服务于这一目标用户，在很大程度上影响了该搜索产品在中国的商业运作。　　2 系统体系结构设计　　2.1设计目标　　集群式搜索引擎系统是一个主要针对企业内部各网站和应用系统的搜索引擎系统，用于从文档系统、数据库、知识管理系统等应用程序和企业内部网站中存储的大量企业信息中查找相关的信息。集群式搜索引擎系统所要达到的目标有以下几个方面：　　（1）无论数据在哪里、以何种形式存在，都能够对其实现快速访问。　　（2）对于访问到的数据通过准确分词建立索引，方便搜索器快速查询。　　（3）用户接口遵循易用性原则，操作简单，具备结果的显示、分类、错误提示、纠错、预览、搜索建议等完备的功能。　　（4）具备完备的管理以及安全控制机制。　　本系统采用 Java 语言开发，使用 MyEclipse 集成开发工具，搭建Hadoop云计算平台，集成 Solr 和 Nutch进行开发，Solr 作为处理搜索结果的源和入口，而 Nutch 作为插件负责爬虫以及创建索引的部分。这样设计充分利用了 Solr Server 的高级特性，同时也充分发挥Nutch 最擅长的工作：抓取和提取内容。对于用户界面部分，则是按照 Windows 的 IE 浏览器规范来设计，采用 HTML 编写的文本框、按钮以及菜单等方式作为用户的使用接口，操作简单，具有较高的可操作性。本系统建立于基于 Hadoop 的云计算系统之上，通过云计算平台提高计算效率以及运行速度，使得存储和管理海量索引数据简单化。　　2.2系统功能　　本系统仍然是按照传统的搜索引擎，将系统划分为三个模块，分别为爬虫模块，与处理模块，检索模块，如图1所示：　　2.3 搜索引擎整体结构　　爬虫从 Internet 中爬取众多的网页作为原始网页库存储于本地，然后网页分析器抽取网页中的主题内容交给分词器进行分词，得到的结果用索引器建立正排和倒排索引，这样就得到了索引数据库，用户查询时，在通过分词器切割输入的查询词组并通过检索器在索引数据库中进行查询，得到的结果返回给用户。其基本结构如图2所示：　　无论搜索引擎的规模大小，其主要结构都是由这几部分构成的，并没有大的差别，搜索引擎的好坏主要是决定于各部分的内部实现。　　3 系统部署及实现　　3.1系统开发环境　　硬件环境：I5 4核3.6G主频主机、2G内存、100G硬盘空间。软件环境：操作系统：CentOS 6.4中文版，开发工具：MyEclipse。　　3.2 Hadoop及Zookeeper的配置　　通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker，这些机器是masters。余下