手把手教你分析携程网评论数据汇编.docVIP

  • 42
  • 0
  • 约4.8千字
  • 约 10页
  • 2017-07-13 发布于湖北
  • 举报

手把手教你分析携程网评论数据汇编.doc

手把手教你分析携程网评论数据汇编

手把手教你分析携程网评论数据 中文文本挖掘包tm、tmcn、Rwordseg、Rweibo的安装 /andy_henry/article/details文本分析的应用越来越广泛,这不,我的工作也开始涉及了文本分析,今天就讲讲关于评论数据的那点事。 一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,在同事的协助下,成功爬取该酒店的评论数据,于是我开始使用这些数据做相关的分析。 本次文本分析中需要使用如下3个包: 1)Rwordseg包用于分词 2)tmcn用于词频统计 3)wordcloud用于绘制文字云 library(Rwordseg) library(tmcn) library(wordcloud) #读取数据 Evaluation - read.csv(file = file.choose(), encoding = UFT-8) #剔除评论数据中含有的英文和数字 text - gsub([a-zA-Z0-9],,Evaluation$Evaluation) #分词 segword - segmentCN(strwords = text) #查看第一条评论的分词效果 segword[1] 从上图的结果中发现,经分割后的词中有许多无意义的停止词,如“是”,“只”,“了”,“也”等,这些词是需要剔除的。关于停止词,可以到网上

文档评论(0)

1亿VIP精品文档

相关文档