(海量数据挖掘以新浪微博为例结题论文4.27.docVIP

下载本文档

1
0
约2.73千字
约 8页
2017-01-30 发布于北京
举报

(海量数据挖掘以新浪微博为例结题论文4.27.doc

(海量数据挖掘以新浪微博为例结题论文4.27

海量数据挖掘---以新浪微博为例结题论文武剑蒋弘观徐航王悦关键词微博数据抓取 java API Heritrix 序言在当前信息时代，各种信息技术高速发展。在所有网民中，微博等社交网络应用快速崛起，微博作为Web2.0时代的新兴产物，以及便捷简单的使用方式，迅速的融入了当今人们的日常生活中,并且其背后有着大量潜在数据，数据中蕴含大量有待挖掘的有价值信息。微博的使用人群数量基数大, 状态信息更新频繁、信息传播迅速，并且微博平台媒介用户占有率相对集中, 因此基于微博数据的采集技术的研究成为了十分值得关注的研究方向，是对微博数据进行进一步分析研究的基础。在中国,已有14%的互联网用户开始使用微博, 而新浪微博的市场份额占有率接近87%, 是中国微博产业的主导力量。分析主流微博客网站，对网页数据进行采集和分析，提高微博客网站访问量，对吸引网友具有积极的促进作用，对网站经营者来说具有重要意义。本项目研究面向海量微博数据的采集技术，并以目前国内最大的微博服务供应商新浪为主要的研究对象。主要对比采用新浪开放的API与使用网络爬虫获取微博数据的采集性能与采集质量。具体研究内容为：目前新浪向公众开放了API接口进行数据的获取，但是由于API服务器的限制，只能返回一部分的信息，因此本项研究将利用新浪微博开放测试的API接口，与传统的网络爬虫方式进行数据的获取。并通过返回的js

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

(海量数据挖掘以新浪微博为例结题论文4.27.docVIP