网站大量收购独家精品文档,联系QQ:2885784924

专业技能竞赛 教学项目四 电商产品评论数据情感分析 教学单元四 电商产品评论数据情感分析.ppt

专业技能竞赛 教学项目四 电商产品评论数据情感分析 教学单元四 电商产品评论数据情感分析.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
了解本案例数据获取的方法 借助Google Chrome的Web开发者工具获取带有评论JSON的URL 使用Rcurl包下的getURL函数获取带有评论数据的JSON文本内容 使用正则表达式矫正JSON文本内容 使用jsonlite包下的fromJSON函数将JSON文本转为R语言的list 提取品牌名、用户昵称、发表时间、评论内容 找出带评论数据的JSON文本URL的规律,循环爬取评论数据 1 学习任务二 获取电商产品 评论文本数据 目录 学习任务一 了解电商企业现状 与文本情感分析流程 2 学习任务三 对电商产品评论数据 进行预处理 3 学习任务四 评论数据情感倾向分析 4 学习任务五 使用LDA模型进行主题分析 5 去除评论文本重复数据 一些电商平台往往为了避免一些客户长时间不进行评论,会设置一道程序,如果用户超过规定的时间仍然没有做出评论,系统会自动替客户做出评论,这类数据显然没有任何分析价值。 由语言的特点可知,在大多数情况下,不同购买者之间的有价值的评论都不会出现完全重复,如果出现了不同购物者的评论完全重复,这些评论一般都是毫无意义的。这种评论显然只有最早的评论才有意义(即只有第一条有作用)。 清洗评论数据 通过人工观察数据发现,评论中夹杂许多数字与字母,对于本案例挖掘目标而言,这类数据本身没有实质性帮助。另外,由于该评论文本数据主要围绕京东商城中美的电热水器进行评价,其中“京东”、“京东商城”、“美的”、“热水器”、“电热水器”等词出现的频数很大,但是对分析目标并没有什么作用,因此可以在分词之前将这些词去除。 对评论数据进行分词 分词是文本信息处理的基础环节,是将一个单词序列切分成一个一个单词的过程。 去除停用词 停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。 停用词大致分为两类,一类是使用十分广泛,甚至是过于频繁的一些单词。比如英文的“i”、“is”、“what”,中文的“我”、“就”等,这些词几乎在每个文档上均会出现,另一类是文本中出现频率很高,但实际意义又不大的词。这一类词主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语。常见的有“的”、“在”、“和”、“接着”等。 提取有意义的评论 由于本案例的目标是对产品特征的优缺点进行分析,类似“不错,很好的产品”,“很不错,继续支持”等评论虽然表达了对产品的情感倾向,但是实际上无法根据这些评论提取出哪些产品特征是用户满意的。评论中只有出现明确的名词,如机构团体及其它专有名词时,评论才有意义,因此需要对分词后的词语进行词性标注。之后再根据词性将含有名词类的评论提取出来。 绘制词云查看分词效果 词云会将文本中出现频率较高的“关键词”予以视觉上的突出。 根据词云可以看出,对评论数据进行预处理后,分词效果较为符合预期。其中“安装”、“师傅”、“售后”、“物流”,“服务”等词出现频率较高,因此可以初步判断用户对产品这几个方面比较重视。 1 学习任务二 获取电商产品评论 文本数据 目录 学习任务一 了解电商企业现状与 文本情感分析流程 2 学习任务三 对电商产品评论数据 进行预处理 3 学习任务四 评论数据情感倾向分析 4 学习任务五 使用LDA模型进行主题分析 5 匹配情感词 对评论情感倾向进行分析首先对情感词进行匹配,主要采用词典匹配的方法。 修正情感倾向 情感方向修正主要根据情感词前面2个位置的词语是否存在否定词而去判断情感值的正确与否,由于汉语中存在多重否定现象,即当否定词出现奇数次时,表示否定意思;当否定词出现偶数次时,表示肯定意思。按照汉语习惯,搜索每个情感词前2个词语,若出现奇数否定词,则调整为相反的情感极性。 查看情感分析效果 正面情感评论词云 负面情感评论词云 将情感得分大于0的评论判为正面情感评论,将情感得分小于0的评论判为负面情感评论。分别对正负面情感评论数据绘制词云。 查看情感分析效果 通过比较原评论的评论类型与情感分析得出的评论类型,证明通过词表的情感分析去判断某文本的情感程度是有效的。 1 学习任务二 获取电商产品评论 文本数据 目录 学习任务一 了解电商企业现状 与文本情感分析流程 2 学习任务三 对电商产品评论数据 进行预处理 3 学习任务四 评论数据情感倾向分析 4 学习任务五 使用LDA模型进行主题分析 5 了解LDA主题模型 LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的

文档评论(0)

WanDocx + 关注
实名认证
内容提供者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档