基于Solr的分布式全文检索系统的研究与实现.doc

基于Solr的分布式全文检索系统的研究与实现.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Solr的分布式全文检索系统的研究与实现

计 算 机 与 现 代 化 2012 年第 11 期 总第 207 期 JISUANJI YU XIANDAIHUA 文章编号: 1006-2475( 2012) 11-0171-06 基于 的分布式全文检索系统的研究与实现 Solr 李戴维,李 宁 ( 华北计算技术研究所信息技术与应用系统部,北京 100083) 摘要: 随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对 该情况,设计并实现一个基于 Solr 的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本 文件; 然后利用 Solr 索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度; 系统通过 Zoo- keeper 管理集群,将搜索模块设计为分布式,有效地提高检索性能; 最后设计了友好的用户界面。目前,系统可以在百万 数据量的环境下稳定运行,具有较强的实用价值。 关键词: 全文检索; Solr; 分布式; Zookeeper 中图分类号: TP311. 133. 1 文献标识码: A doi: 10. 3969 / j. issn. 1006-2475. 2012. 11. 042 Research and Implementation of Distributed Full-text Retrieval System Based on Solr LI Dai-wei,LI Ning ( Department of Information Technology and Application System,North China Institute of Computing Technology,Beijing 100083,China) Abstract: With the rapid growth of network information resources,traditional retrieval system has been difficult to provide effi- cient and reliable services to the mass data. In response to this situation,this paper designs a distributed full-text retrieval system based on Solr. The system uses a Web crawler to collect information which is stored as text files. Then the system creates indexes in parallel on multiple computers through Solr index module. It turns out that the design improves the indexing speed effectively. The system improves the retrieval performance by applying Zookeeper management and distributed design in search module. Final- ly a user-friendly interface is designed. Currently,the system can operate millions of data stably and has a strong practical value. Key words: full-text search; Solr; distribution; Zookeeper 用服务器[1]。目前国内将 Solr 与分布式结合的案例 相对较少,本文使用最新版本的 Solr4. 0 对 Solr 实现 了分布式部署,通过 Zookeeper 管理集群,实现了一个 高效、可靠的分布式全文检索系统。 1 关键技术研究 1. 1 搜索引擎技术 引 言 0 当今,网络信息的规模正在以指数趋势上升。如 何从海量信息中提取出有用信息,已成为人们越来越 关注的问题。搜索引擎的诞生,解决了用户检索网络 信息的难题,是获取信息非常有效的工具。但是,当 数据量急剧增长时,单服务器节点处理海量数据显得 力不从心; 分布式计算已经越来越受到人们的关注, 其采取的“横向扩展”机制取代了原始的“向上扩展” 机制( 以大数量的商用机取代价格昂贵的高性能服 务器) ,使得在更好地处理大规模任务时,部署费用 也更加廉价。因此,在学术界和工业界引起了广泛

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档