手把手教你分析携程网评论数据汇编.docVIP

下载本文档

42
0
约4.8千字
约 10页
2017-07-13 发布于湖北
举报

手把手教你分析携程网评论数据汇编.doc

手把手教你分析携程网评论数据汇编

手把手教你分析携程网评论数据中文文本挖掘包tm、tmcn、Rwordseg、Rweibo的安装 /andy_henry/article/details文本分析的应用越来越广泛，这不，我的工作也开始涉及了文本分析，今天就讲讲关于评论数据的那点事。一般通过网络爬虫的方式抓取各大网站的评论数据，本次分析数据就来源于携程网某酒店的评论，在同事的协助下，成功爬取该酒店的评论数据，于是我开始使用这些数据做相关的分析。本次文本分析中需要使用如下3个包： 1）Rwordseg包用于分词 2）tmcn用于词频统计 3）wordcloud用于绘制文字云 library(Rwordseg) library(tmcn) library(wordcloud) #读取数据 Evaluation - read.csv(file = file.choose(), encoding = UFT-8) #剔除评论数据中含有的英文和数字 text - gsub([a-zA-Z0-9],,Evaluation$Evaluation) #分词 segword - segmentCN(strwords = text) #查看第一条评论的分词效果 segword[1] 从上图的结果中发现，经分割后的词中有许多无意义的停止词，如“是”，“只”，“了”，“也”等，这些词是需要剔除的。关于停止词，可以到网上

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

手把手教你分析携程网评论数据汇编.docVIP