基于solr的分布式搜索引擎研究-软件工程专业论文.docxVIP

下载本文档

4
0
约3.93万字
约 71页
2018-12-18 发布于上海
举报
版权申诉

基于solr的分布式搜索引擎研究-软件工程专业论文.docx

1、本文档共71页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于solr的分布式搜索引擎研究-软件工程专业论文

摘要随着中小型企业的迅猛发展以及电脑信息化的大量普及，快速发展的企业信息量呈指数增长。企业用户想要在庞大的海量信息库中找到自己需要的准确信息，就如同在大海中捞针不太现实。而解决这一难题的可用方法就是搜索引擎技术，利用它可以为用户提供比较简单的信息检索服务。为了能够更好的处理企业海量数据及搜索的准确性，在搜索引擎系统中引入了分布式计算和 Solr 全文检索技术。主要针对海量数据的处理及高并发请求的处理来构架分布式的搜索引擎。提出分布式搜索引擎的主要研究工作在于对传统的搜索引擎进行分布式计算。应对海量数据的处理主要采用分布式建立索引及分布式搜索的策略。并采用分布式文件系统进行存储索引文件。然后对系统的整体流程框架进行深入探讨，得到能够有效应对海量数据处理的结构及流程。在应对处理高并发请求方面，给出软硬负载均衡及优化每个分布式节点的策略。通过负载均衡策略和对每个分布式有效节点进行优化处理，使其性能达到能够快速处理高并发的请求的水平。并且针对 Solr 索引处理机制采用主从式复制集群部署，使其更好的适应海量数据及并发请求的处理。最后，在实验室的环境下构建了一个有两个有效节点的小型分布式搜索引擎系统，其中每个有效节点是集群部署的两台计算机。对其建立海量索引，并且通过对引擎的压力测试，得到实验数据结果。通过分析理解实验数据结果，验证了系统架构的可靠性、扩展性和稳定性。关键词：分布式计算海量信息高并发 Solr 搜索引擎 Abstract With the rapid development of small and medium-sized enterprises, as well as the increasing popularity of computer information technology, the rapid development of enterprise’s amount of information has grown exponentially. Business users want accurate information they need to find a huge mass of information the library, it is not realistic as fishing for a needle in the ocean. The search engine technology is an effective way to solve this problem, which allows you to provide users with a relatively simple information retrieval service. In the search engine system in order to be able to better deal with huge amounts of data and search accuracy, use of distributed computing and the Solr full text retrieval technology. The search engine user distributed processing architecture for massive data processing and high concurrent requests. Proposed a distributed search engine, the main research work is distributed computing on traditional search engines. Massive data processing should be distributed indexing and distributed search strategy. And distributed file system to store the index file. And then conduct in-depth discussion on the overall process framework to effectively deal with massive data processing, structure and processes. In response to the treatment of high concurrent requests, given the software and hardware load balancing a