基于CCR模型的用户投诉智能识别系统.docVIP

下载本文档

42
0
约5.68千字
约 17页
2018-06-10 发布于江西
举报
版权申诉

基于CCR模型的用户投诉智能识别系统.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于CCR模型的用户投诉智能识别系统.doc

基于CCR模型的用户投诉智能识别系统目录 =================================== 第1章项目背景和意义 2 第2章项目特点和功能描述 4 第3章项目主要内容 5 第4章主要创新点 13 第5章成果效益 15 第6章项目推广前景 16 项目背景和意义竞争战略之父迈克尔·波特说过：企业之间的竞争归根到底是对客户资源的竞争。在全业务竞争时代，客户忠诚将成为中国移动的核心竞争力之一。在各运营商层出不穷的、同质化的业务和服务下，客户的选择增多；需求从同质化走向个性化，客户对服务的期望提高，对运营商而言，客户满意度的提升变得更加挑战。中国移动要在全业务竞争中领先，需要将客户规模优势转化为客户关系优势，需不断提升客户满意度。移动公司在投诉处理过程中，积累的投诉量大。客户与公司的接触与交互，蕴含着丰富的客户提升客户满意度的机会，他们的每一通来电，无论是投诉还是查询或咨询，不管是为业务办理还是提交故障，都能促使我们提升业务管理水平。因此，深入分析客户投诉内容，发现用户不满原因，是提升客户满意度最重要的手段。传统的投诉处理分析方式（登陆WMS系统查看，统计报表，个案分析报告）进行现状诊断与分析，发现了公司在投诉分析方面存在的问题，最终归结为下面几个方面：外部因素：热点捕捉难：热点发现不及时，热点不明确，难以聚焦；内容分析难：数据量大文字多，需要对内容逐个采用人工分析，很繁琐。对热点分析不透，难以发现引发投诉的根本问题。工作发力难：投诉热点、难点识别的及时性和精确度不高，关键投诉较难把控，分析结果较难应用。内部因素：系统支撑力度不够：WMS系统主要支撑业务运营，系统分析能力有限，难以支撑对投入内容的深入分析。流程不完善：投诉热点发现、原因分析和问题处理环节相对孤立，没有形成闭环，问题解决效率不高。基于以上背景，上海公司今年在集团公司指导下，以“基于投诉文本内容智能识别客户投诉原因的研究与应用”项目为切入点，开展客户满意度深入分析工作，进一步提升企业竞争力和持续发展能力，为打造卓越的经营分析体系，加速实现成为世界一流移动信息运营商的目标奠定基础。项目特点和功能描述本项目主要包括三大内容：（一）通过对传统的投诉处理分析方式（登陆WMS系统查看，统计报表，个案分析报告）进行现状诊断与分析，发现了公司在投诉分析方面存在的问题，最终归结为下述问题：数据量大、文字多、内容难分析，察看需要逐个进行，很繁琐用户真实投诉原因难发现，对背后隐性问题分析很少，不易发现用户隐性或潜在需求分类固定，新问题易忽略导致发现时间不及时；（二）针对这三大改进领域，借鉴业内成熟技术经验，将文本分析引入到投诉内容中，提出了基于投诉文本内容智能识别客户投诉原因的投诉分析模型；（三）基于模型的识别结果，选取投诉热点进行专题分析，识别出用户投诉的原因，从中发现产品设计和服务策略中存在的问题，并采取相应的对策进行改善。项目主要内容模型介绍投诉内容识别模型，后文简称为CCR(Complain Content Recognizer)。CCR借鉴业内成功技术经验，探索基于客户投诉信息以获得服务和产品改进和创意思路的方法。下图是CCR模型的实现框架：对投诉内容进行分词采用完全基于Lucene的中文分词系统，针对移动投诉专题建立专属的投诉词库，在此技术上使用分词系统的analyzer对文本进行切分。 Apache Lucene是一个高性能的全能的全文检索的搜索引擎框架库，完全使用Java开发。它是一种适合于几乎任何一种需要全文检索的应用，特别是跨平台的应用。Lucene基础排序算法: score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t) score_d: Document(d) 的得分 sum_t: Term(t) 的总和 tf_q: 查询中 t 的频度的平方根 tf_q: d 中 t 的频度的平方根 idf_t: log(numDocs/docFreq_t + 1) + 1. 0numDocs: 索引中Document的数量 docFreq_t: 包含t的Document的数量 norm_q: sqrt(sum_t((tf_q*idf_t)^2))norm_d_t: 在与 t 相同域的 d 中 tokens 数量的平方根过滤无用词汇，构建投诉词典采用基于感知语义的信息过滤法，通过对投诉内容信息核心词汇的分析，构建投诉词典，并过滤掉其他无用词汇（如：数字、标点符号、语气词等），帮助摆脱有害信息的侵扰。由于投诉内容的普遍性，投诉词典在较长一段时间内比较稳定，不会变化。为过滤掉关键词特征冗余, 引入词频覆盖率的概念,