- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SolrCloud网络百科检索服务实现
基于SolrCloud网络百科检索服务实现
摘要:网络百科是一部在线百科全书,为用户提供了资源丰富、内容详实的网络查询工具。网络百科检索服务是基于SolrCloud搭建的检索平台,服务部署在集群上,具有集中式的信息配置、自动容错、近实时搜索和查询时自动负载均衡的特点。本文介绍了SolrCloud平台的搭建方案,结合数据特点设计了索引结构,增加了中文分词器和中文词表,提高了在创建索引和检索索引过程中的中文分词效果。在SolrCloud平台基础上,本文根据搜索引擎原理提出了搜索引擎优化方案,进一步提升了搜索效果。通过在创建索引时对关键字段设置多颗粒度分词模式,在检索索引时对不同颗粒度分词设置不同的权重,提高检索效果;通过挖掘数据内在的引用关系为文档质量评分,提高优质文档在搜索结果中的排名。实验数据表明,优化方法对网络百科检索服务效果有很大的提升。
关键词:计算机软件;搜索引擎优化;SolrCloud;中文分词
中图分类号:TP311
文献标识码:A
DOI:10.3969/j.issn.1003-6970.2015.12.024
本文著录格式:郝强,高占春.基于SolrCloud的网络百科检索服务的实现[J].软件,2015,36(12):103-107
0 引言
1.网络百科是一个包罗万象的在线百科全书,涉及经济、政治、文化等各个方面。网络百科的主体为词条,分为中文和英文,由千万量级的词条构成了庞大的知识库,具有很强的知识性和科普价值,同时又鼓励用户参与创建和修改词条,使网络百科在丰富权威的同时,也具有趣味性和快更新的特点。
2.在海量的数据中,按照用户的需求高效、准确地检索出词条和同条内容是一项极具挑战的任务。搜索引擎技术可以通过对数据文档创建索引,实现对相关查询的高效快速检索,为用户返回相当数量的排序搜索结果。并且可以根据实际的数据特点,通过多种手段对搜索引擎的进行优化,提高搜索结果的准确率。
3.在处理大规模数据时,不但需要考虑检索的效果,也需要考虑计算机的运算能力和故障风险。分布式搜索技术在集群上搭建服务,通过负载均衡降低了机器的运算负担,通过并行计算提高了集群的运算能力,通过分布式存储提高了整个集群的容灾能力。
4.本文使用SokCloud搭建分布式搜索引擎,为海量数据提供了高效准确的检索服务,并提出了优化搜索的方法,实验数据表明优化方法有效提高了搜索的准确率。
l SolrCloud介绍
Solr是一个基于Lucene的全文搜索服务器。Solr与Lucene相比,提供了更为丰富的查询语言,提供了提供了基于Http的可返回json、xml等格式的接口。Solr提供了配置接口和扩展接口,并能对查询性能进行优化。
SolrCloud是基于Solr和Zookeeper的分布式搜索方案,SolrCloud将服务部署在集群上,通过Zookeeper进行集群管理。SolrCloud在Solr的功能基础上,具有4个新特性,包括集中式的配置信息,自动容错,近实时搜索和查询时自动负载均衡。SolrCloud为大数据量检索提供了良好的解决方案。
SolrCloud集群中collection是一个逻辑意义上的完整索引。一个collection通常被分成一个或多个shard,同一个collection的所有shard具有相同的配置。一个shard有一个或多个replica作为副本,每个shard的replica中会选举出一个leader。
2 SolrCloud部署
2.1 SolrCloud搭建
网络百科检索服务使用的是solr-5.2.1版本,solr-5.2.1需要运行在jdkl.7及以上版本。分析网络百科数据量大小,以及自动容错和负载均衡的需要,网络百科检索服务创建了名为baike的collection,baike分为5个shard,每个shard有3个replica。SolrCloud管理页面展示的集群结构见下图。
搜索服务部署在5台机器上,每台机器分配4G内存和16G存储空间。分别在5台机器上部署solr-5.2.1,在一台机器的configsets目录下创建属于网络百科检索服务的配置目录baike_configs,并在该机器上启动SolrCloud创建baike实例,在其余4台机器上启动SolrCloud并加入该baike实例。这5台机器组成了SolrCloud集群。
2.2 分词器和词表
网络百科检索服务是基于词的倒排索引的查询。词是表达语义的最小单元,对于以英文为代表的的西方拼音语言来说,词之间有明显的分界符,英文以空格作为天然的分隔符。与西方拼音语言不同,中文继承于古代汉语传统,词之间没有明确的分
文档评论(0)