用Python对用户评论典型意见进行数据挖掘.docVIP

下载本文档

49
0
约3.42千字
约 21页
2018-05-19 发布于江西
举报
版权申诉

用Python对用户评论典型意见进行数据挖掘.doc

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

用Python对用户评论典型意见进行数据挖掘.doc

用Python对用户评论典型意见进行数据挖掘用户体验的工作可以说是用户需求和用户认知的分析。而消费者的声音是其中很重要的一环，它包含了用户对产品的评论，不管是好的坏的，都将对我们产品的改进和迭代有帮助。另外任何事情都要考虑金钱成本和人力成本，因此我希望能通过机器学习的算法来辅助分析，对用户的评论数据进行提炼和洞察。一、数据获取和清洗现在爬虫泛滥，网络公开数据的获取并不再是一个难题。简单点可以利用一些互联网的爬虫服务（如神箭手、八爪鱼等），复杂点也可以自己写爬虫。这里我们用爬虫来获取京东的评论数据。相对于亚马逊而言，京东比较坑。第一个坑是京东的反爬虫还不错，通过正常产品网址进去的那个评论列表是几乎爬不出数据来的，所有大部分网络爬虫服务都止步于此。第二个坑是一款产品的评论数只要超过一万条，那么京东就只会显示前一千条，没有公开的数据，那你爬虫技术再厉害也没办法，除非开着爬虫定时增量更新数据。自己写爬虫的好处就是可以避免掉进第一个坑，但是第二个坑没办法。这里我爬取了小米MIX 和小米MIX2 的评论数据(最新的几款手机我都爬取了，需要的请戳后台)，其中小米MIX 共1578条，小米MIX2 共3292条。本文通过分析这些数据预期完成如下几个目标 1、数据清洗后的好评率 2、好/中/差评的概览 3、典型意见分析首先来看看MIX2的大致情况：一共有3497条评论，其中有些评论内容还是完全相同的。用户大概在购买9天后后评论（可能与到货日期有关），平均打分为4.87分，评论里面有些完全相同的，小米MIX2只有一种颜色等等。接下来我们先做第一件事情京东采用的是5分制，其中4-5分为好评，2-4分为中评，1分为差评。MIX2的好评率为96.63%，与京东官网的一致。粗略的浏览以下评论，我们发现有这么几种无效评论。第一种全是标点符号或者就一两个字：这种情况可以利用正则表达式来去除，第二种比较麻烦，如：这种评论中它纯属凑字数和灌水，不含任何产品的特征。一种想法是看看评论中涉及的名词是否是手机领域中的词语，但是实际情况会非常复杂，比如 “用的很不错”、“太差了”... 它并没有主语，并不知道它评价的是啥。这里我们反过来，假设每一类无效评论都有类似的关键词，一个评论中的词语只要有一些垃圾评论关键词，我们就把它判定为无效评论。当然并也不需要给定所有的无效评论词，利用tfidf可以通过一个词语顺藤摸瓜找到其他类似的词语。（还可以利用文本相似性算法寻找）另外还有一种情况，虽然不属于无效评论，但是影响好评占比。这种情况在追评中出现的较多，还有就是京东默认的好评。虽然内容是差评，但是标记的分值是5分。理论上也可以通过算法找出大部分。在NLP领域中，有一个课题叫做情感分析（sentiment analysis）, 它可以判断一句话的情感方向是正面的还是负面的（以概率大小给出，数值在0-1之间）。如果一段评论的情感方向与对应的评分差异过大，则我们有理由相信它的评分是有误的。当然这里有一个条件，那就是这个情感分析算法是非常准确的。有大神专门用电商评论训练了一个开源的情感分析包snownlp, 我们来看看这个包效果怎样。嗯嗯，准确率为92.63%，看上去很高，但。。。因为我把所有评论都判定为好评，那正确率也有96.54%。再看上图中的ROC曲线，嗯，惨不忍睹。曲线跟x轴之间的面积（记作AUC）越大，说明模型的判别能力越好。一般情况曲线会在对角线之上（对角线相当于随机预测的结果），可以此时AUC=0.157，比随机结果差多啦。更好的情感分析估计需要利用大量手机领域的语料重新训练才行，本文就暂不讨论这个啦。二、好/中/差评的语义理解语义理解是一个非常难的课题，本文不追求绝对精准，仅希望能对产品的评论有一个快速的理解。本文将从三个方面来阐述同类型评论语料的语义： 1、词云。它会统计一段文本中各个词语出现的次数（频数），频数越大，在词云中对应的字体也越大。通过观察词云，可以知道一段文本主要在讲哪些东西 2、TextRank。 TextRank 算法是一种用于文本的基于图的排序算法，可以给出一段文本的关键词。其基本思想来源于谷歌的PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。 3、主题分解。假设每一段文本都是有主题的，比如新闻里的体育类、时事类、八卦类等。通过对一系列的语料库进行主题分解（本文采用的是LDA），可以了解语料库涉及了哪些主题。（本文用的LDA实际效果不怎么好，暂且仅供娱乐。更好的方