基于Lucene的客服知识库系统结构设计.docVIP

基于Lucene的客服知识库系统结构设计.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
图 1 客服知识库系统结构图杨元峰, 赵敏涯,廖黎莉( 苏州市职业大学 计算机工程系 江苏 苏州 215104 图 1 客服知识库系统结构图 杨元峰, 赵敏涯, 廖黎莉 ( 苏州市职业大学 计算机工程系 江苏 苏州 215104 ) 【摘 要】: 本文将知识库与数据相结合进行了客服知识库系统结构设计。 在基于 Lucene 搜索的同时 结合数据库查询的实时搜索方式,实现了针对不同格式文档的正文抽取,能够对知识信息进行多域索引与 搜索。 【关键词】: Lucene;客服知识库;多域索引 1、引言 金融业、零售业、高科技及电信行业等的业务种类 繁多,其技术、政策以及营销方面的知识几乎是海量级 的, 而这些信息大多由公司内部各业务部门收集、整 理、发布,存在多头管理的现象,由于各个渠道的内容 不统一、不规范,也导致了信息发布的有效性和及时性 得不到保证。 对于生产高新技术产品的企业来说, 客服人员必 web 发布框架 Cocoon、Java 开发平台 Eclipse、机构知识 库管理系统 DSpace 等。 Lucene 的特点有如下几点: 1)数据源灵活多样, 只要能从相应数据源中提取 出文本内容; 2)索引域(Field)可定制,如是否存储、是否规格化、 是否对该域进行分词等; 3)支持分块增量索引和批量索引, 方便对索引的 维护; 4)索引文件独立于具体平台,便于发布和使用; 须面对越来越快的产品更新换代; 而对于生产多种功 能的通用产品的企业来说, 又必须面对产品可能问题 的复杂性和多变性。 客服人员往往不能清楚的理解其 中的含义,无法形成统一的认识基础,甚至发生误解。 目前的客服知识管理体系仅把已有的业务知识内 容简单的罗列、堆砌在一起,缺乏逻辑关系,各类信息 不容易定位,造成客服人员在实际使用中相当不便,尤 5)Lucene 采用了面向对象的系统架构, 易于相关 部件的扩展和修改, 如可以很容易嵌入自己开发的中 文分词程序对中文进行索引和搜索; 6)采用了最简单的基于 VSM(向量空间模型)的相 似度算法的检索模型, 很容易理解和改进查询结果的 评分排序算法。 其所有的业务信息经长时间的堆叠积累后, 会造成知 基于 Lucene 的以上特点, 本文使用其作为知识索 识目录树结构层次混乱。 当客服人员需要查找某业务 引和检索组件,设计知识库系统的结构如图 1 所示。 点时,需要花费大量的时间。 以上几点将导致企业服务 效率低下,这在很大程度上影响了运营成本。 行业业务知识又是企业宝贵的资产之一, 这就需 要对其上升到“数字化资产”的高度进行管理。 目前许 多公司使用了知识管理软件后能够降低 25%的服务成 本。 但从整体上来讲,知识库的应用水平仍然处在初级 阶段, 很多知识库产品或解决方案是由国内的开发人 员根据特定需求构建的, 因而多数产品缺乏完整的技 术构架而且没有必要的支持, 很多产品把重点放在为 用户提供搜索引擎上,而一般情况下,这个搜索引擎只 是包括了简单的 FAQ 和关键词搜索。 2、知识库系统结构设计 Lucene 是 apache 软件基金会的全文检索引擎工 具包。 它提供了完整的查询引擎和索引引擎,为文本数 3、系统结构组件分析 3.1 正文内容抽取器 由于 Lucene 只能对文本内容进行分析和索引,因 据的索引和查询提供了灵活的调用接口。 基于 Lucene 此需要针对不同格式文档的正文抽取器。 它主要功能 的全文检索系统已经应用到很多 Java 项目中如:web 论坛系统 Jive、 邮件列表系统 Eyebrows、 基于 XML 的 是过滤掉文件的格式信息和图片等信息从而获取文件 的正文内容。 目前针对 word、ppt、excel 等格式文件的 分析器有 POI、JXL、Java2Word、IText 和 JACOB 等开源工具;PDF 文件格式的分析器有 PDFBOX0.7.3 控件(完 全支持中 分析器有 POI、JXL、Java2Word、IText 和 JACOB 等开源 工具;PDF 文件格式的分析器有 PDFBOX0.7.3 控件(完 全支持中文)和 XPDF;对 HTML 格式文件的解析或清 洗的工具有 HTML Parser 等。 但在实际的应用中,上述 工具只是对特定的文件抽取效果比较好, 不能很好的 支持正文内容的抽取, 因此需要对这些格式文件分析 工具进行必要的改进。 设计的系统中上之所以把文档正文内容的抽取工 作放在构建知识信息库的前面, 是为了在创建知识数 onstant.INDEX_DIRECTORY, false), analyzer, true, IndexWriter.MaxField- Length.LIMITED);

文档评论(0)

小教资源库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档