- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
网络舆情监测基于R语言的网络文本挖掘与数据可视化中国人民大学统计学院王贺第六届中国R语言会议(北京会场)
新闻评论微博NEWSREVIEWSWEIBO文本挖掘互联网R电商ONLINESHOPPING热点话题TOPICTEXTMINING关键词KEYWORDWEBINTERNETTOPICMODEL主题模型LDA2
TEXTMINING新闻评论微博NEWSREVIEWSWEIBO文本挖掘互联网R电商ONLINESHOPPING热点话题TOPIC关键词KEYWORDWEBINTERNETTOPICMODEL主题模型LDA新闻评论微博NEWSREVIEWSWEIBO文本挖掘互联网R电商ONLINESHOPPING热点话题TOPICTEXTMINING关键词KEYWORDWEBINTERNETTOPICMODEL主题模型LDAcvcv数据获取数据清理数据分析结果展示3
热点话题新闻评论微博NEWSREVIEWSWEIBO文本挖掘互联网R电商ONLINESHOPPINGTOPICTEXTMINING关键词KEYWORDWEBINTERNETTOPICMODEL主题模型LDA4
logo截至2013年3月12日新浪微博?前200条含PM2.5的微博
产品评论6网络新闻新浪微博RRwordsegtmldaRurlXML
R《R语言环境下的文本挖掘》TextMininginR刘思喆,2012.037
“要学会如何Google,如何百度”——谢邦昌8
关键词+空格+“site:”+URL9指定起止时间多栏显示连续显示12
[日]朝日新闻网中有关“人民币”的报道
(2012年)语料库12
语料库读取建立13
读取url地址一个本地文件夹使用tm包:install.packages(tm)doc-c(Lineone.,Linetwo.)Corpus(VectorSource(doc))Corpus(VectorSource(doc.txt))Corpus(DirSource(c:/users/…))#WindowsCorpus(DirSource(/Volumes/HD/…))#Macdoc-htmlParse(url,encoding=UTF-8)#require(XML)...Corpus(VectorSource(doc))R中的变量一篇本地文档
文本-词频矩阵
DocumentTermMatrix15
新浪微博关键词:PM2.518
文本-词频矩阵
DocumentTermMatrixgexfxmlns:viz=http:////1.1draft/vizversion=1.1xmlns=/1.1draftmetacreatorWangH/creator/metagraphdefaultedgetype=undirectedidtype=stringtype=staticnodescount=329nodeid=1label=03月/nodeid=204label=检测点/nodeid=205label=江里漂/nodeid=206label=结膜炎/nodeid=207label=借东风//nodesedgescount=930edgeid=1source=1target=10weight=2/edgeid=2source=1target=16weight=1/edgeid=3source=1target=44weight=1//edges/graph/gexfXML19
截至2013年3月12日新浪微博?前200条含PM2.5的微博
产品评论例:某款U盘在某商城的用户评价23
截至2013年3月15日金士顿某款U盘在亚马逊网站上的用户评价的关键词关系图
金士顿U盘性价比很高,没什么问题壹贰金士顿U盘没什么性价比叁金士顿U盘性价比不错,没什么缺点肆金士顿U盘性价比很好,没什么瑕疵伍……
精度往往不够26BigData–Context=Bad
PostedonMarch4,2013byRogerPeng
/2013/03/04/big-data-context-bad/Icanseeatleastthreeproblemshere,notnecessarilymutuallyexclusive:BigDataareoften“Wrong”Data.Thestudentsusedthesensorsmeasuresomething,
您可能关注的文档
最近下载
- 软件资格考试软件评测师(基础知识、应用技术)合卷(中级)试题及答案指导(2025年).pdf VIP
- 如何进行水运工程竣工决算编制.pdf
- wps入门培训课件.docx VIP
- 2025--江苏省录用公务员考试申论A类真题卷及答案 .pdf VIP
- 小学生飞机科普PPT课件.pptx VIP
- 维修工安全教育培训.pptx
- ISO 4628-1-2016中文+英文,色漆和清漆—涂层老化的评价缺陷的数量和大小以及外观均匀变化程度的标识—第 1 部分.pdf
- 便血病的中医护理.pptx
- ISO 4628-2-2016中文+英文,色漆和清漆—涂层老化的评价缺陷的数量和大小以及外观均匀变化程度的标识—第 2 部分 起泡等级的评定.pdf
- 增值税加计抵减政策培训课件.pdf VIP
文档评论(0)