- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于solr汽车数据检索组件设计与实现
基于solr汽车数据检索组件设计与实现
摘要:随着信息化的高速发展,汽车业与信息技术充分融合为一体。伴随着汽车业的快速发展,汽车数据也呈现爆炸式的增长。汽车数据的检索是汽车信息化最重要的部分,而对于汽车数据的检索来说如何在海量的汽车数据中快速、精准地查找到需要的数据,是评价其功能的重要指标,也是一个重要的研究问题。该文针对该问题,对solr搜索框架和Jcseg中文分词器进行了研究,并结合JAVA设计封装成可重用的组件,从而提高对汽车数据的检索速度。
关键词:快速搜索;Solr;Jcseg;中文分词
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)28-0012-03
当今是信息化时代,更是大数据时代,信息的增?L呈现出爆炸式态势。而伴随着汽车业的高速发展,汽车业相关技术和材料也在飞快的更新换代,由此产生的汽车相关数据也越来越庞大。如此庞大的与汽车相关的数据信息的聚合汇聚,产生了海量复杂的信息。而庞大且杂乱的信息量导致获取和整理有效信息的难度和复杂度的大大增加,而垃圾信息的获取概率也随之增大。于是,人们开始思考如何精准且快速地获取有用信息,这就造成了对应的搜索技术与工具的应运而生。通用的搜索技术有数据库技术和搜索引擎技术。数据库技术在传统的信息系统中搜索性能表现良好,但是涉及大数据量的情况,表现就有点差强人意。而且使用方式比较单一。而以搜索引擎技术而生成的作为专门的信息搜索工具的搜索引擎,可以帮助用户尽可能快速且精确地从庞大的信息量中检索整理出符合条件的信息。搜索引擎的出现符合时代的潮流,因此,作为朝阳产业的搜索引擎从其诞生至今,虽然仅仅只经理了10多年的时间,却取得了异常迅速的发展。
搜索引擎在发展的过程中经历了许多具有里程碑意义的历史事件,它们一步步的奠定了搜索引擎在今天的地位。
搜索引擎的发展也是一步步由稚嫩走向成熟的:初始时,麦吉尔大学的一位学生在1990年发明了搜索引擎的雏形“Archie”,而其只是一个可以搜索的文件名列表,列表内容由FTP文件名组成,查询时用户输入精确的文件名,“Archie”会返回FTP站点,用户可以通过该站点来获得对应的文件。在1993年Martin Koster基于“Archie”发明了Archie的HTTP版本的搜索引擎ALIWEB,ALIWEB的功能类似Yahoo!,可以通过主动提交信息来建立链接索引。同年,用于分析字词关系的Excite被斯坦福大学的学生所发明,Excite能够对互联网上信息进行更有效的搜索,达到了更好的搜索的效果。而经过四年的积蓄与发展,卡耐基梅隆大学的Michael Mauldin于1997年发明了搜索引擎Lycos,Lycos提供相关度排序,前缀匹配和字符相近限制搜索,并且第一次在索引程序中接入了spider程序的方法和使用了网页自动摘要的方法。而集成搜索、多语言支持、用户界面等功能于一体的Google于1998年诞生,其为搜索引擎带来了技术革新。
值得一提的是,相较于国外,国内对搜索引擎的研究起步较晚,但是也取得了一定的成就。搜索引擎分类众多,但是基本思想却是一致的。要做的首先都是对目标信息进行搜集,然后按照各自集成的方法对搜集到的信息进行分析和处理,并按照一定的数据结构将分析后的信息数据保存下来,最后,用户从这些被保存的信息数据中检索到有用的信息。由于大型商业搜索引擎只有少数人可以接触到,开源搜索引擎应运而生。在开源搜索引擎中最流行的产品应当是来自于Lucene家族的,很多知名的搜索引擎都是该家族以Lucene库为基础派生出的。而Solr就是在Lucene基础之上实现的一个开源的搜索引擎。开发者可以通过其对应的配置文件,对Solr搜索引擎进行功能配置,从而实现强大的搜索功能,而且solr搜索引擎的查询和索引的效率都是极高的,因此, Solr搜索引擎是大多数开发者的首选。
1 技术简介
1.1 Lucene
Lucene是一个开源的全文检索工具包,同时是Apache软件基金会Jakarta下的一个子项目。不幸的是,Lucene仅仅提供了构建检索工具所需要的基础架构,而不是一个完整的搜索引擎,但是开发者可以利用Lucene的基础架构结合自己的思路快速地开发出符合自己想法的搜索引擎。Lucene于2001年被捐献给Apache,其作者Doug Cutting,而其本身就是一位在全文检索方面资深的专家。Lucene经过多年的发展和完善,逐步成为了当下最流行的开源的java全文检索工具包,现在Lucene的最新版本为6.6.0版本。值得一提的是,eclipse就使用了Lucene作为全文检索工具来检索帮助文档。
1.2 Solr
Solr全称Search On Luc
您可能关注的文档
最近下载
- 07-维护支柱应知应会.doc VIP
- 考试点专业课:中国矿业大学(徐州)财务管理习题.pdf VIP
- 中国矿业大学《财务管理》2020-2021学年期末试卷.pdf VIP
- 中国矿业大学《财务管理》2021-2022学年第一学期期末试卷.pdf VIP
- 中国矿业大学《国际会计学(英语)》2021-2022学年第一学期期末试卷.doc VIP
- 中国矿业大学《财务管理》2025 - 2026学年第一学期期末试卷.docx VIP
- 高二《直线和圆的方程》易错培优竞赛试题-2024-2025学年高二数学竞赛能力培优练(全国通用)解析版.pdf VIP
- 高二《直线和圆的方程》易错培优竞赛试题-2024-2025学年高二数学竞赛能力培优练(全国通用)原卷版.pdf VIP
- 第六章:维护支柱.pdf VIP
- 缺血性卒中患者椎动脉颅内段钙化:多因素关联与临床洞察.docx
文档评论(0)