基于Lucene的客服知识库系统结构设计.docVIP

下载本文档

3
0
约5.73千字
约 3页
2019-10-23 发布于江西
举报
版权申诉

基于Lucene的客服知识库系统结构设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

图 1 客服知识库系统结构图杨元峰，赵敏涯，廖黎莉（苏州市职业大学计算机工程系江苏苏州 215104 图 1 客服知识库系统结构图杨元峰，赵敏涯，廖黎莉（苏州市职业大学计算机工程系江苏苏州 215104 ）【摘要】：本文将知识库与数据相结合进行了客服知识库系统结构设计。在基于 Lucene 搜索的同时结合数据库查询的实时搜索方式，实现了针对不同格式文档的正文抽取，能够对知识信息进行多域索引与搜索。【关键词】： Lucene；客服知识库；多域索引 1、引言金融业、零售业、高科技及电信行业等的业务种类繁多，其技术、政策以及营销方面的知识几乎是海量级的，而这些信息大多由公司内部各业务部门收集、整理、发布，存在多头管理的现象，由于各个渠道的内容不统一、不规范，也导致了信息发布的有效性和及时性得不到保证。对于生产高新技术产品的企业来说，客服人员必 web 发布框架 Cocoon、Java 开发平台 Eclipse、机构知识库管理系统 DSpace 等。 Lucene 的特点有如下几点： 1）数据源灵活多样，只要能从相应数据源中提取出文本内容； 2）索引域(Field)可定制，如是否存储、是否规格化、是否对该域进行分词等； 3）支持分块增量索引和批量索引，方便对索引的维护； 4）索引文件独立于具体平台，便于发布和使用；须面对越来越快的产品更新换代；而对于生产多种功能的通用产品的企业来说，又必须面对产品可能问题的复杂性和多变性。客服人员往往不能清楚的理解其中的含义，无法形成统一的认识基础，甚至发生误解。目前的客服知识管理体系仅把已有的业务知识内容简单的罗列、堆砌在一起，缺乏逻辑关系，各类信息不容易定位，造成客服人员在实际使用中相当不便，尤 5）Lucene 采用了面向对象的系统架构，易于相关部件的扩展和修改，如可以很容易嵌入自己开发的中文分词程序对中文进行索引和搜索； 6）采用了最简单的基于 VSM(向量空间模型)的相似度算法的检索模型，很容易理解和改进查询结果的评分排序算法。其所有的业务信息经长时间的堆叠积累后，会造成知基于 Lucene 的以上特点，本文使用其作为知识索识目录树结构层次混乱。当客服人员需要查找某业务引和检索组件，设计知识库系统的结构如图 1 所示。点时，需要花费大量的时间。以上几点将导致企业服务效率低下，这在很大程度上影响了运营成本。行业业务知识又是企业宝贵的资产之一，这就需要对其上升到“数字化资产”的高度进行管理。目前许多公司使用了知识管理软件后能够降低 25%的服务成本。但从整体上来讲，知识库的应用水平仍然处在初级阶段，很多知识库产品或解决方案是由国内的开发人员根据特定需求构建的，因而多数产品缺乏完整的技术构架而且没有必要的支持，很多产品把重点放在为用户提供搜索引擎上，而一般情况下，这个搜索引擎只是包括了简单的 FAQ 和关键词搜索。 2、知识库系统结构设计 Lucene 是 apache 软件基金会的全文检索引擎工具包。它提供了完整的查询引擎和索引引擎，为文本数 3、系统结构组件分析 3.1 正文内容抽取器由于 Lucene 只能对文本内容进行分析和索引，因据的索引和查询提供了灵活的调用接口。基于 Lucene 此需要针对不同格式文档的正文抽取器。它主要功能的全文检索系统已经应用到很多 Java 项目中如：web 论坛系统 Jive、邮件列表系统 Eyebrows、基于 XML 的是过滤掉文件的格式信息和图片等信息从而获取文件的正文内容。目前针对 word、ppt、excel 等格式文件的分析器有 POI、JXL、Java2Word、IText 和 JACOB 等开源工具；PDF 文件格式的分析器有 PDFBOX0.7.3 控件(完全支持中分析器有 POI、JXL、Java2Word、IText 和 JACOB 等开源工具；PDF 文件格式的分析器有 PDFBOX0.7.3 控件(完全支持中文)和 XPDF；对 HTML 格式文件的解析或清洗的工具有 HTML Parser 等。但在实际的应用中，上述工具只是对特定的文件抽取效果比较好，不能很好的支持正文内容的抽取，因此需要对这些格式文件分析工具进行必要的改进。设计的系统中上之所以把文档正文内容的抽取工作放在构建知识信息库的前面，是为了在创建知识数 onstant.INDEX_DIRECTORY, false), analyzer, true, IndexWriter.MaxField- Length.LIMITED);