- 42
- 0
- 约4.8千字
- 约 10页
- 2017-07-13 发布于湖北
- 举报
手把手教你分析携程网评论数据汇编
手把手教你分析携程网评论数据
中文文本挖掘包tm、tmcn、Rwordseg、Rweibo的安装
/andy_henry/article/details文本分析的应用越来越广泛,这不,我的工作也开始涉及了文本分析,今天就讲讲关于评论数据的那点事。
一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,在同事的协助下,成功爬取该酒店的评论数据,于是我开始使用这些数据做相关的分析。
本次文本分析中需要使用如下3个包:
1)Rwordseg包用于分词
2)tmcn用于词频统计
3)wordcloud用于绘制文字云
library(Rwordseg)
library(tmcn)
library(wordcloud)
#读取数据
Evaluation - read.csv(file = file.choose(), encoding = UFT-8)
#剔除评论数据中含有的英文和数字
text - gsub([a-zA-Z0-9],,Evaluation$Evaluation)
#分词
segword - segmentCN(strwords = text)
#查看第一条评论的分词效果
segword[1]
从上图的结果中发现,经分割后的词中有许多无意义的停止词,如“是”,“只”,“了”,“也”等,这些词是需要剔除的。关于停止词,可以到网上
原创力文档

文档评论(0)