基于Lucene的电力客户搜索引擎设计.docVIP

下载本文档

1
0
约3.1千字
约 5页
2017-12-23 发布于上海
举报
版权申诉

基于Lucene的电力客户搜索引擎设计.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Lucene的电力客户搜索引擎设计

精品论文参考文献基于Lucene的电力客户搜索引擎设计（江苏方天电力技术有限公司江苏南京 211102）摘要：电力客户信息是供电企业开展电力工作的基础，如何快速准确定位用电客户，将直接影响到营业业务、电费电价管理、计量管理、客户用电安全管理等多项电力工作的工作效率。本文通过研究Lucene技术，搭建基于Lucene实现的用电客户搜索引擎系统，提高供电公司业务工作效率。关键词：电力客户；搜索引擎；Lucene； 0 引言目前电力公司已经建立了营销系统、用采系统等多套系统来为用户提供相应的电力服务工作，但是这部分系统都是基于传统的数据库建立，业务处理时都需要准确的用户信息才能得到查询结果，而实际上由于多种原因使得系统内部有大量电力客户信息存在不完整或不准确的情况，使得数据质量上存在较大问题，造成用电客户信息不能及时查询到，从而影响了业务办理的效率。为此，本文通过Lucene搭建个性化电力客户搜索引擎，实现电力客户快速定位，提高了业务办理效率。 1 Lucene简介 1.1 Lucene简介 Lucene 是一个基于 Java 的全文信息检索工具包，它不是一个完整的搜索应用程序，而是为你的应用程序提供索引和搜索功能。是目前最为流行的基于 Java 开源全文检索工具包[1-2]。 1.2 倒排索引 Lucene将输入数据以一种称为倒排索引（inverted index）的数据结构进行存储。在进行关键字快速查找时，这种数据结构能够有效的利用磁盘空间[1-2]。 2 方案概述 2.1 系统架构系统由数据采集、数据索引、数据检索、数据交互四部分组成，如下图所示：图1 系统架构图数据采集：通过全量和增量两种方式从结构化数据库中获取原始数据，并对客户数据进行组织处理为Lucene接收的数据格式；数据索引：索引程序通过中文分词及过滤器，将客户信息中的字符串进行分词及其他处理，并将返回的所有字符串进行倒排处理后添加到索引库；数据检索：负责查询条件预处理、组织查询条件、对查询结果进行过滤和排序；数据交互：包括搜索界面、结果展示与数据???口，搜索界面与结果展示是系统和用户交互的界面。数据接口为其他系统、APP、微信等系统提供接口，通过调用接口实现电力客户信息搜索。 2.2 数据采集数据采集模块负责获取传统数据库中的客户信息，并对客户信息进行组织处理。主要通过全量采集和增量采集两种方式实现。 2.2.1 全量数据采集系统搭建完成后，首次运行需要对所有用电客户信息进行采集，这就需要采用全量方式进行采集，全量方式处理的数据量大, 所需时间长，因此只适用于在首次或算法进行重大调整时，需要对所有数据进行重新索引时使用。 2.2.2 增量数据采集由于客户数据信息每天都发生变化，因此需要对客户信息进行实时更新，但由于全量采集所需时间长，不能满足数据变化的需求，因此需要通过增量采集方式对只对变化的数据进行采集，从而使数据处理时间大为减少，适用于日常维护过程中使用，既保证了数据有效性又不影响数据检索效率。 2.3 数据索引 Lucene索引过程分为3个主要操作步骤：创建文档、分析文本、添加索引文档[1-2]。创建文档：将原始文档转换为文本过程在数据采集过程已经进行处理，并将处理数据保存供数据索引时使用。分析文档：在索引操作时，通过中文分词技术和过滤器结合来分析文本，将文本数据分割成语汇单元串，然后对它们执行一些可选择操作。添加索引文档：写入数据分析完毕后，就可以将分析结果写入索引文件中。 2.4 中文分词目前常用的应用于Lucene 的中文分词器有mmseg4j、ansj 、jcseg、ik、paoding等多种。由于系统主要是对姓名和地址进行处理，通过对各种分词器的分析比较，系统采用jcseg分词，并对算法进行了优化，完善了姓名识别词库，丰富了地址词库，最终使得分词效果能够满足系统的应用。如“江苏省南京市”分词后的结果为“江苏/江苏省/南京/南京市”，这样保证了在使用“江苏”,“江苏省”检索时都能检索到该信息。 2.4.1过滤器姓名处理：由于电力客户姓名中存在相似音，为了能够定位到这部分客户，需要对电