- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于微博“人工智能”的话题热词与情感分析;01 问题描述;;过去20年,我们把人变成机器,未来我们将把机器变成人。;新一代人工智能发展分三步走的战略目标,到2030年使中国人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心。;国内互联网用户对“人工智能”有什么看法?;2.1 数据采集;进入微博,搜索框输入“人工智能“;导出为excel表,数据包含微博内容、发布地区、发布时间三个维度,共5122条数据;2.2 数据预处理;1.去除重复项;第一级清洗主要去掉一部分用户发布的重复的微博内容文本,通过excel自带的“删除重复项”功能即可。;第二级清洗主要对微博内容文本中无意义的数字及符号进行清洗,通过R的gsub命令对微博文本内容中的数字及符号进行清除。;biaoti -readLines(/Users/chinos/Desktop/AIDATA.txt,encoding =UTF-8)
length(biaoti) biaotiTemp - gsub(“[0-9 0 1 2 3 4 5 6 7 8 9 ~],,biaoti) ;微博文本中包含一定的url地址及表情符号,应对其清洗以降低数据噪声。此处同样适用R的gsub命令,对其进行清洗。;1)微博文本内容中包含一定的“的、了、行、呢”等无实际意义,需对其进行清洗。但此步骤需在微博文本分词后进行,故不在此赘述。
2)由于Mac系统字符的特殊性,excel文件转化后的csv文件需在number软件下处理后方可读写,否则会引起编码错误。
3)但因报告后期才发现此问题的解决办法,故将导出的excel文件中微博内容一栏复制到txt文件中进行读写。;2.3 地图绘制;- 简单易用:可以根据已有数据快速的实现地图可视化展示 ;- R语言中的经典包,可以满足很多维度的可视化需求 ;- 绘制地图方便快捷,省市级地区的二级地图非常精准 ;使用Googlevis进行着色;使用Remap进行着色;我们可以看到,利用Remap绘制的可视化地图时同样是可交互的,当鼠标移动到相应区域时,也会弹出相应地点名称及数值。优点在于使用Remap包不需要翻墙去外网,相比googlevis更方便。;2.4 词云分析;在这部分工作中,我们想要的结果是通过可视化的方式将关于人工智能的微博文本中的词频分布展现出来,显然词云图分析是一种非??适合的方式。第一步首先要清洗掉微博文本中的一些无意义的词或是停用词(stopwords),在网络上有相对比较成熟的停用词库供我们选择,这里我们选择了搜狗停用词库。;传闻 串行 纯 纯粹 此后 此中 次第 匆匆 从不 从此 从此以后 从古到今 从古至今 从今以后 从宽 从来 从轻 从速 从头 从未 从无到有 从小 从新 从严 从优 从早到晚 从中 从重 凑巧 粗 存心 达旦 打开天窗说亮话 大 大不了 大大 大抵 大多 大凡 大概 大家 大举 大略 大面儿上 大事 大体 大体上 大约 大张旗鼓 大致 带 殆 待到 单 单纯 单元 弹指之间 当场 当即 当口儿;中文分词包的选择;首先,我们对全部微博文本进行词云绘制;通过上面的词云图我们可以看到,针对人工智能关键词的微博,围绕的关键词以机器人、技术、生活、智能、科技、市场居多。这些关键词与我们息息相关,人工智能带来的机器人与技术、科技的剧变为企业和我们的生活做出巨大的贡献,同时也为市场带来了一片生机,引发资本市场的又一次巨大浪潮。;其中画廊关键词令我们较为意外,因为第一感觉与人工智能并无直接关系。但通过我们进一步对人工智能与画廊进行搜索时我们发现,在抽取的微博时间段内,美图秀秀的“人工智能”画廊产品引爆了社交圈,在微博圈内引发网友广泛转载。;严格意义上讲这样的文本信息不应该算作噪声,但是确实在一定程度上干扰了人工智能相关关键词的探索。不过,这样的结果也在一方面体现出了网友更容易对什么样的人工智能相关产品感兴趣,对互联网用户的社会化聆听起到了一定的启发作用。;2.4.1 北京市词云分析;人工智能的迅猛发展成为中国与其他国家进行竞争的重要砝码,除了在资本市场上被广泛提及之外,在政府的各种相关报告中也多有涉及。于是,中国成为人工智能话题在北京地区的关键词并不让人意外。
同样,北京作为人工智能技术场景应用最为广泛,落地最为成熟的地区,更加关注人工智能的实际意义。技术与数据是人工智能的两大支柱,成为话题的关键词也并不例外。;2.4.2 广东省词云分析;通过上面的词云图我们看到广东省的人工智能话题词云图与其他地区相比较为类似,关键词围绕在发展、智能、中国、时代等。同样的,我们发现律师也成为了人工智能话题微
原创力文档


文档评论(0)