并行LDA主题模型在电力客服工单文本挖掘中应用.docVIP

下载本文档

17
0
约4.96千字
约 10页
2018-09-07 发布于福建
举报
版权申诉

并行LDA主题模型在电力客服工单文本挖掘中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

并行LDA主题模型在电力客服工单文本挖掘中应用

并行LDA主题模型在电力客服工单文本挖掘中应用　　摘要：为提升电力客户服务质量，在进行电力客服工单文本挖掘时，对工单文本首先进行切词，然后应用分布式内存计算框架构建并行LDA主题模型，对工单进行文本主题分析。使用国网公司某网省电力客服工单进行了主题分析，结合业务专家经验确定主体数k=10较合适，结果表明分布式内存计算框架下的并行LDA主题模型可以应用于客服工单的文本挖掘。　　关键词：工单文本挖掘并行LDA 分布式内存计算　　中图分类号：F407.61 文献标识码：A 文章编号：1674-098X（2017）04（c）-0245-05 　　Abstract：Applicate distributed computing framework to construct parallel theme LDA model， then modeling power customer service work order text theme. Use SGC a net province electric power customer service work order are analyzed in the text theme， calculation results show that the distributed memory parallel theme LDA model under the framework of text mining can be applied to customer service work order. 　　Key Words：Worksheet semantic analysis； Parallel LDA； Distributed memory computing 　　??质服务是一切企业生存与发展的基础和前提。国家电网公司将电力的优质服务定位成“国家电网的生命线”，足见其对于电力企业的重要作用。国网某省公司为充分发挥电力客户服务中心“对客户服务的窗口作用、对市公司的桥梁作用、对业务部门的决策支撑作用、对供电服务质量的监督作用”，基于国网南中心办结与转派的海量工单数据，对分散在95598日常业务工单中的用户诉求与供电服务质量的关系进行全方位、多维度、多层次的统计分析。依托现有国网95598系统、营销业务系统等数据，通过95598模块优化提升，对营业普遍和专题性问题、客户服务效率问题、客户服务满意度提升方面进行深入分析，探究客户用电服务中的共性问题以及分布、趋势和原因，挖掘用户用电的普遍性规律，找出用户用电过程中敏感的、重点关注的，受行为习惯、外界因素影响的深层次原因。进一步挖掘分析业务处理各流程环节的短板、问题和原因所在，将加强各类业务督办和服务协同，提升95598业务服务能力，提高客户服务质量。　　该文的方法首先将电力客服工单文本根据自建的电力关联词库及非关联词库进行文本切词，然后在分布式内存计算框架下构建并行LDA主题模型，最后利用该模型进行文本主题挖掘，得到电力客服工单的主题描述。该方法结合国家电网某省公司实际电力工单文本数据，进行文本主题分析，结果表明可以有效描述电力客服工单主题。　　1 并行LDA主题模型　　隐含狄利克雷分布（Latent Dirichlet allocation，LDA）是一种主题模型（Topic Model），也是一种词袋模型，采用无监督学习算法，由Blei等于2003年提出。LDA主题模型可以以概率分布的形式给出文档集中每篇文档主题，并且在训练时不需要带标注的训练集。目前，LDA主题模型在文本挖掘领域中的文本主题识别、文本分类及相似度计算等方面都有广泛应用。　　1.1 LDA主题模型　　LDA主题模型是一种词袋模型，将语料库看作文档集合，将文档看作单词集合。文档就像一个装单词的袋子，袋子中的单词独立并可交换（即没有单词顺序和语法结构），基于此可将文档文本转换成对应的词频向量，完成文档数字化抽象。LDA主题模型将文档视为“文档―主题―词”的三层贝叶斯结构，每篇文档是若干主题的概率分布，每个主题是若干词的概率分布[1]。LDA主题模型的概率图模型见图1。　　图1中，是文档―主题的Dirichlet分布的超参数；是主题―词的Dirichlet分布的超参数；是第i篇文档中主题的多项式分布的超参数；是第k个主题中词的多项式分布超参数；是第i篇文档中第j个词的主题；Wi，j是第i篇文档中第j个词；M是预料库中的文档数；Ni是第i篇文档中词数。　　根据LDA主题模型的文档生成方式，模型中可见变量和隐变量的联合概率分布：　　公式（1）中各变量含义与图1中一致。　　根据极大似然估计，可以由对公式（1）得到一篇文档中单