基于某电商平台评论数据文本挖掘分析.docVIP

下载本文档

870
0
约3.6千字
约 8页
2018-08-30 发布于福建
举报
版权申诉

基于某电商平台评论数据文本挖掘分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于某电商平台评论数据文本挖掘分析

基于某电商平台评论数据文本挖掘分析　　【摘要】本文是对抓取到的6131条某电商平台上的某品牌面膜的消费者评论数据做文本挖掘分析。第一步是对抓取到的评论数据进行基本的数据预处理、中文分词；接下来通过建立语义网络和LDA主题模型等数据挖掘模型，实现对文本评论数据的情感倾向性分析以及对其所隐藏信息的挖掘分析，得到有价值的潜在内容；最后提出相应的可行性的建议。　　【关键词】文本挖掘；电商平台　　一、引言　　随着中国互联网经济的发展，在“互联网+”的背景下，电子商务得到了快速发展，网上购物在中国越来越流行。人们在工作和生活之余对于网上购物的需求变得越来越多样化，这样的发展状况给天猫、京东等电商平台带来了很好的发展?C遇，但是与此同时，多样化的需求也推动了更多电商平台的崛起，引发了更为激烈的竞争。在电商平台这样激烈竞争的大背景下，除了提高商品的质量、压低商品的价格和合适的营销手段外，了解更多消费者的心声、发现商品痛点对于电商平台来说也变得越来越有必要。而这其中最为有效的方式就是利用消费者的文本评论数据，进行潜在信息的一种数据挖掘分析工作，这对于电商平台以及产品都会有很大的意义。　　二、研究目的与方法　　本文选取了某电商平台上的某品牌面膜作为研究对象，抓取了2017年1月至2017年6月6个月共计6131条消费者评论数据做文本挖掘分析。预期得到的目标如下：（1）分析产品评论的用户情感倾向；（2）从评论文本数据中挖掘出该品牌的优点与不足。　　本文的研究主要分为以下3个步骤：（1）对抓取的数据进行基本的操作处理，包括数据预处理、中文分词等操作；（2）文本评论数据经过处理后，运用多种手段对评论数据进行多方面的分析；（3）从对应结果的分析中获取文本评论数据中有价值的内容。　　三、研究过程　　（一）评论预处理　　文本评论数据里面存在大量价值含量很低甚至没有价值含量的条目，如果将这些无价值的数据也进行分词、词频统计甚至情感分析，会对分析造成很大的影响，得到的分析结果也会存在问题。那么在利用这些文本评论数据之前就必须先进行文本预处理，把大量的诸如此类的无价值含量的评论数据去除。　　对这些文本评论数据的预处理主要由三个部分组成：文本去重、机械压缩去词以及短句删除。　　1.文本去重　　本文采用一些相对简单的文本去重思路。由于相近的评论语句存在了不少是有用的评论，去除掉这类语句当然是不合适的。那么为了保存足够多的有用语料，就只能针对于完全重复的语句进行处理。因此，处理这样的完全重复的语句，直接采用最方便的比较删除法，即两两对比，如果完全相同就去除的方法。　　2.机械压缩去词　　机械压缩去词实际上要处理的语句就是评论语句中有连续累赘重复的部分，从一般的评论偏好角度来讲，一般人制造无意义的连续重复只会在开头和结果进行，如“为什么为什么为什么快递这么慢？！”和“效果很好很好很好”。因此我们只对评论文本开头和结尾的连续重复进行机械压缩去词的处理。　　连续累赘重复的判断可通过建立两个存放国际字符的列表来完成，先放第一个列表，再放第二个列表，一个个读取国际字符，并按照不同情况，将其放入第一或第二个列表或触发压缩判断，若得出重复（及列表1与列表2有意义的部分完全一对一相同）则压缩去除，这样当然就要有相关的放置判断及压缩规则。在机械压缩去词处理的连续累赘重复的判断及压缩规则设定的时候，必然要考虑到词法结构的问题。　　3.短句删除　　完成机械压缩去词的操作后，需要进行短句删除。虽然精简的叙述在一些时候是一种很良好的习惯，但是由语言的特点可知，从根本上说，字数越少其所能够表达出的意义就会越少。想表达特定的意思就需要有相应数量的字数，太少的字数的评论语句必然是没有意义的评论。比如三个字，就只能表达诸如“质量差”、“很不错”等等。基于以上原因，我们需要删除掉这些过短且没有意义的文本评论。　　显然，短句删除中最重要的环节就是保留评论的字数下限的确定。因为这个操作没有明确的固定标准，只能结合实际语句来确定。一般6到10个国际字符是较为合理的下限，本文我们设定下限为7个国际字符，即经过机械压缩去词之后得到的语句若小于等于6个国际字符，则将该语句删除。　　（二）文本评论分词　　在中文语句中，通过分界符只能对字、句和段落进行简单的划分，而对于“词”或者说“词组”来讲，它们之间的边界非常模糊，没有一个真正严格意义上的分界符，不容易划分。所以，在对文本评论数据进行挖掘分析时，要对这些文本数据进行分词，将连续的字序列按照一定的规范重新排列组合成一个词序列。　　三、模型构建分析　　（一）情感倾向性分析　　为了分析消费者对一件产品的总体情感倾向，我们可以对该商品的评论数据集做情感倾向分析，以此得到对商品的