基于Lucene的电力客户搜索引擎设计的研究.docVIP

基于Lucene的电力客户搜索引擎设计的研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene的电力客户搜索引擎设计的研究 目录 TOC \o 1-9 \h \z \u 目录 1 正文 2 文1:基于Lucene的电力客户搜索引擎设计 2 1Lucene简介 2 1.1Lucene简介 2 1.2倒排索引 3 2方案概述 3 2.1系统架构 3 2.2数据采集 3 2.2.1全量数据采集 4 2.2.2增量数据采集 4 2.3数据索引 4 2.4中文分词 5 2.4.1过滤器 5 2.5数据检索 6 2.5.1检索条件预处理 6 2.5.2检索结果排序 6 2.5.3检索结果过滤 6 2.6结果展示 6 3总结 7 文2:基于Lucene的垂直搜索引擎设计系统管理 7 1 系统设计 7 1.1系统构建与业务流程 7 1.2 功能模块设计 8 1.3 数据库设计 8 2 基于Lucene的垂直搜索引擎的实现 9 2.1 数据基础 9 2.2 系统运行实例 9 3 结束语 10 参考文摘引言: 10 原创性声明(模板) 11 正文 基于Lucene的电力客户搜索引擎设计的研究 文1:基于Lucene的电力客户搜索引擎设计 0引言 目前电力公司已经建立了营销系统、用采系统等多套系统来为用户提供相应的电力服务工作,但是这部分系统都是基于传统的数据库建立,业务处理时都需要准确的用户信息才能得到查询结果,而实际上由于多种原因使得系统内部有大量电力客户信息存在不完整或不准确的情况,使得数据质量上存在较大问题,造成用电客户信息不能及时查询到,从而影响了业务办理的效率。 为此,本文通过Lucene搭建个性化电力客户搜索引擎,实现电力客户快速定位,提高了业务办理效率。 1Lucene简介 1.1Lucene简介 Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。是目前最为流行的基于Java开源全文检索工具包[1-2] 1.2倒排索引 Lucene将输入数据以一种称为倒排索引(invertedindex)的数据结构进行存储。在进行关键字快速查找时,这种数据结构能够有效的利用磁盘空间[1-2] 2方案概述 2.1系统架构 系统由数据采集、数据索引、数据检索、数据交互四部分组成,如下图所示: 图1系统架构图 数据采集:通过全量和增量两种方式从结构化数据库中获取原始数据,并对客户数据进行组织处理为Lucene接收的数据格式; 数据索引:索引程序通过中文分词及过滤器,将客户信息中的字符串进行分词及其他处理,并将返回的所有字符串进行倒排处理后添加到索引库; 数据检索:负责查询条件预处理、组织查询条件、对查询结果进行过滤和排序; 数据交互:包括搜索界面、结果展示与数据接口,搜索界面与结果展示是系统和用户交互的界面。数据接口为其他系统、APP、微信等系统提供接口,通过调用接口实现电力客户信息搜索。 2.2数据采集 数据采集模块负责获取传统数据库中的客户信息,并对客户信息进行组织处理。主要通过全量采集和增量采集两种方式实现。 2.2.1全量数据采集 系统搭建完成后,首次运行需要对所有用电客户信息进行采集,这就需要采用全量方式进行采集,全量方式处理的数据量大,所需时间长,因此只适用于在首次或算法进行重大调整时,需要对所有数据进行重新索引时使用。 2.2.2增量数据采集 由于客户数据信息每天都发生变化,因此需要对客户信息进行实时更新,但由于全量采集所需时间长,不能满足数据变化的需求,因此需要通过增量采集方式对只对变化的数据进行采集,从而使数据处理时间大为减少,适用于日常维护过程中使用,既保证了数据有效性又不影响数据检索效率。 2.3数据索引 Lucene索引过程分为3个主要操作步骤:创建文档、分析文本、添加索引文档[1-2] 创建文档:将原始文档转换为文本过程在数据采集过程已经进行处理,并将处理数据保存供数据索引时使用。 分析文档:在索引操作时,通过中文分词技术和过滤器结合来分析文本,将文本数据分割成语汇单元串,然后对它们执行一些可选择操作。 添加索引文档:写入数据分析完毕后,就可以将分析结果写入索引文件中。 2.4中文分词 目前常用的应用于Lucene的中文分词器有mmseg4j、aj、jcseg、ik、paoding等多种。由于系统主要是对姓名和地址进行处理,通过对各种分词器的分析比较,系统采用jcseg分词,并对算法进行了优化,完善了姓名识别词库,丰富了地址词库,最终使得分词效果能够满足系统的应用。如“江苏省南京市”分词后的结果为“江苏/江苏省/南京/南京市”,这样保证了在使用“江苏”,“

文档评论(0)

szbalala + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体深圳市巴啦啦科技有限公司
IP属地广东
统一社会信用代码/组织机构代码
91440300MA5FCP2R75

1亿VIP精品文档

相关文档