基于LDA模型的95598热点业务工单挖掘分析.docVIP

下载本文档

4
0
约4.12千字
约 8页
2017-08-25 发布于北京
举报
版权申诉

基于LDA模型的95598热点业务工单挖掘分析.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于LDA模型的95598热点业务工单挖掘分析.doc

基于LDA模型的95598热点业务工单挖掘分析　　摘要　　95598热点业务工单的挖掘与分析，对业务详单进行分类，热点问题的及时发现与追踪，起到很重要的作用。目前对于热点业务工单的分类，采用人工查询工单并分类，工作繁琐且效率低。本文提出了一种基于LDA的热点业务工单分类模型，对工单中的受理内容进行中文自然语言的处理和数据挖掘，实现对热点业务工单的分类筛选，对准确有效地提高供电服务质量具有十分重要的现实意义。　　【关键词】语义分析文本挖掘热点工单 LDA 　　随着电力行业售电侧改革不断加深，对客服管理质量要求越来越高，需要进一步改善客户体验和提升客户满意度。要提升客户满意度，需从客户的热点业务工单入手，分析挖掘热点业务聚焦点，快速有效找出业务短板，提升客户服务质量。　　本文依据一般客服问题管理机制和文本挖掘理论，并结合电力企业客服特点，阐述了如何对客服热点工单文本进行挖掘分析以及如何在系统中基于LDA算法对其进行分类的应用。业务工单中的投诉工单、客户回访处理不满意的工单能直接反映客户对产品、对服务的感知，是客户满意度的最直接反映。从现状来看，目前的热点工单分类的处理方式，是由调查分析人员通过对95598客户诉求数据的分析，对受理的内容进行分析和筛选，然后完成分类。这种方式缺乏有效的辅助分析手段，分析手段单一，影响服务问题的分析和解决效率，因此需利用中文自然语言处理、文本挖掘等技术，结合电力领域的业务特点，对95598来电工单进行自动化的智能分析与处理，实现热点业务工单的智能分类与原因挖掘。　　1 热点业务工单业务描述　　热点业务主要包括停电、乱收费、抄核收、人身伤亡、赔偿、外界关注等的工单，相互之间可以重复统计。通过对工单的挖掘结果，对热点业务工单进行可视化展示，展示维度包括单位、市县公司、以及业务类型。　　热点业务主要分为以下6个大类，分类如表1。　　2 文本挖掘相关理论　　文本挖掘（Text Mining，TM）是近几年来数据挖掘领域的一个新兴分支，是以文本数据为特定挖掘对象的知识挖掘。文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程文本挖掘的要点是分词，根据文本数据中的特征信息进行分词处理，以此构建文本的中间表示。原始的文本数据通常以非结构化或半结构化数据呈现，再利用文本挖掘手段转换为结构化文本，进而发掘新的概念与对应关系。　　基于领域特征词表的特征词标注，主要以大量来电工单中反映业务种类、热点问题现象的特征词为基础，设立特征词表，进行基于特征词匹配的子句标注，并依不同维度进行工单分类。　　通过构建检测模型和确定模型指标体系、指标阈值等参数，对工单数据进行大数据分析，采取可视化大屏全屏展示的方式进行全方位多角度的展开实时监控、分析、预警和展示，及时发现当前问题、变化趋势，并对问题点改进情况进行跟踪。　　2.1 文本自动分类　　为了方便对文本进行归类与管理，我们通常会在实际操作中给文本内容指定一个或多个分类类别。传统的人工标注，需要耗费巨大的时间和精力。文档自动分类是文本挖掘领域针对这一业务场景的典型应用。通过相应的分类器，实现文本分类的预测功能。当对一个新文档进行分类时，分类器通常为这个文档指定一个或多个类别标签，并根据算法策略给出分类标签的可信度。　　按照机器学习方式的不同，文档自动分类的实现大体上分为两类，监督学习和非监督学习。　　监督学习方法是在训练集上建立模型，针对每个训练集，需人工为每个训练集中的文档打上类别标记，接着用训练集训练一个分类器。训练完成后，这个分类器将能够预测任何一个给定文档的类别。非监督学习方式与监督学习方法的不同点，在于他们不需要训练数据集，可以在一批文档中自动发现相似文档并完成分组。　　实际应用中，分类器一般由数据集整理，数据预处理，分类算法等三部分组成。数据集，需要整理足够数量的高质量文档，为了将数据集转化为便于进行文本挖掘的格式，同时为提高结果的精度，数据预处理主要包括中文分词、词项的权值修正等步骤。分类算法与策略主要依据相应的文本挖掘模型计算文档的特征，最终实现对文档的分类处理。　　2.2 主题模型　　主题模型（Topic Model）是在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。通常来说，若文档有一个中心思想，即主题，那么文档中就会频繁出现与主题关联密切的词项然而，实际上文档会包含多个主题，并且每个主题所占比例也不相同。因此，，如果一篇文档和主题A相关的内容占10%，和主题B有关的内容占90%，那么和主题B有关的词项出现的次数大概会是和主题A有关的词项出现次数的9倍。主题模型试图用数学框架来体现文档分类的这种特点，