- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Solr的分布式全文检索系统的研究与实现
计 算 机 与 现 代 化
2012 年第 11 期
总第 207 期
JISUANJI YU XIANDAIHUA
文章编号: 1006-2475( 2012) 11-0171-06
基于
的分布式全文检索系统的研究与实现
Solr
李戴维,李
宁
( 华北计算技术研究所信息技术与应用系统部,北京 100083)
摘要: 随着当前网络信息资源的急剧膨胀,传统的检索系统已经难以在处理海量数据时提供高效的、可靠的服务。针对
该情况,设计并实现一个基于 Solr 的分布式全文检索系统。系统通过网络爬虫抓取网页信息,将抓取的信息储存为文本 文件; 然后利用 Solr 索引处理模块,在多台计算机节点上并行创建索引,有效地提高系统建立索引的速度; 系统通过 Zoo- keeper 管理集群,将搜索模块设计为分布式,有效地提高检索性能; 最后设计了友好的用户界面。目前,系统可以在百万 数据量的环境下稳定运行,具有较强的实用价值。
关键词: 全文检索;
Solr;
分布式;
Zookeeper
中图分类号: TP311. 133. 1
文献标识码: A
doi: 10. 3969 / j. issn. 1006-2475. 2012. 11. 042
Research and Implementation of Distributed Full-text Retrieval System Based on Solr
LI Dai-wei,LI Ning
( Department of Information Technology and Application System,North China Institute of Computing Technology,Beijing 100083,China)
Abstract: With the rapid growth of network information resources,traditional retrieval system has been difficult to provide effi-
cient and reliable services to the mass data. In response to this situation,this paper designs a distributed full-text retrieval system based on Solr. The system uses a Web crawler to collect information which is stored as text files. Then the system creates indexes in parallel on multiple computers through Solr index module. It turns out that the design improves the indexing speed effectively. The system improves the retrieval performance by applying Zookeeper management and distributed design in search module. Final- ly a user-friendly interface is designed. Currently,the system can operate millions of data stably and has a strong practical value.
Key words: full-text search; Solr; distribution; Zookeeper
用服务器[1]。目前国内将 Solr 与分布式结合的案例
相对较少,本文使用最新版本的 Solr4. 0 对 Solr 实现 了分布式部署,通过 Zookeeper 管理集群,实现了一个
高效、可靠的分布式全文检索系统。
1 关键技术研究
1. 1 搜索引擎技术
引
言
0
当今,网络信息的规模正在以指数趋势上升。如
何从海量信息中提取出有用信息,已成为人们越来越 关注的问题。搜索引擎的诞生,解决了用户检索网络 信息的难题,是获取信息非常有效的工具。但是,当 数据量急剧增长时,单服务器节点处理海量数据显得 力不从心; 分布式计算已经越来越受到人们的关注, 其采取的“横向扩展”机制取代了原始的“向上扩展” 机制( 以大数量的商用机取代价格昂贵的高性能服 务器) ,使得在更好地处理大规模任务时,部署费用 也更加廉价。因此,在学术界和工业界引起了广泛
您可能关注的文档
- 地理知识迁移.ppt
- 地级药品检验机构实验室建设指导意见.doc
- 地铁暗挖车站施工中的监控量测体系.docx
- 地铁短轨枕.doc
- 地铁站人群规律及特征研究_以广州地铁为例.docx
- 地铁车站管幕预筑法施工注浆技术.docx
- 地震储层研究的现状及展望.doc
- 地震勘探震源的历史与发展.doc
- 地震地质综合解释在辽河油田东部凹陷中段构造解释的应用_英文_.doc
- 地震曲率技术在地震资料解释中的应用.doc
- 英语人教PEP版八年级(上册)Unit4+writing+写作.pptx
- 人美版美术四年级(上册)8 笔的世界 课件 (1).pptx
- 人美版美术七年级(上册)龙的制作.pptx
- 英语人教PEP版六年级(上册)Unit 2 第一课时.pptx
- 数学苏教版三年级(上册)3.3 长方形和正方形周长的计算 苏教版(共12张PPT).pptx
- 音乐人教版八年级(上册)青春舞曲 课件2.pptx
- 音乐人教版四年级(上册) 第一单元 音乐知识 附点四分音符|人教版.pptx
- 英语人教PEP版四年级(上册)Unit 6 Part B let's learn 1.pptx
- 道德与法治人教版二年级(上册)课件-3.11大家排好队部编版(共18张PPT).pptx
- 人美版美术七年级(上册)《黄山天下奇》课件1.pptx
文档评论(0)