- 8
- 0
- 约 8页
- 2016-10-19 发布于贵州
- 举报
海量数据挖掘以新微博为例 ---结题论文(4.27)
海量数据挖掘---以新浪微博为例结题论文
武剑 蒋弘观 徐航 王悦
关键词 微博 数据抓取 java API Heritrix
序言
在当前信息时代,各种信息技术高速发展。在所有网民中,微博等社交网络应用快速崛起,微博作为Web2.0时代的新兴产物,以及便捷简单的使用方式,迅速的融入了当今人们的日常生活中,并且其背后有着大量潜在数据,数据中蕴含大量有待挖掘的有价值信息。微博的使用人群数量基数大, 状态信息更新频繁、信息传播迅速,并且微博平台媒介用户占有率相对集中, 因此基于微博数据的采集技术的研究成为了十分值得关注的研究方向,是对微博数据进行进一步分析研究的基础。在中国,已有14%的互联网用户开始使用微博, 而新浪微博的市场份额占有率接近87%, 是中国微博产业的主导力量。分析主流微博客网站,对网页数据进行采集和分析,提高微博客网站访问量,对吸引网友具有积极的促进作用,对网站经营者来说具有重要意义。
本项目研究面向海量微博数据的采集技术,并以目前国内最大的微博服务供应商新浪为主要的研究对象。主要对比采用新浪开放的API与使用网络爬虫获取微博数据的采集性能与采集质量。具体研究内容为:目前新浪向公众开放了API接口进行数据的获取,但是由于API服务器的限制,只能返回一部分的信息,因此本项研究将利用新浪微博开放测试的API接口,与传统的网络爬虫方式进行数据的获取。并通过返回的json文件,以及网络爬虫分类分析人们目前最关注的是那些事件,那些话题,还有潜在的网络公众人物。并通过优化查找办法,找出最优的基于API与网络爬虫相结合的微博数据采集方法。
实验环境介绍
我们的实验采用的测试机为:Lenovo PC机,处理器:Intel(R)Core(TM)i5 CPU,内存:8.00GB,运行的环境是Win7 系统,接入的网络为校园无限网,开发所采用的IDE环境为:Eclipse。
新浪API数据挖掘方法概述
新浪微博API 由一系列的接口程序构成,开发者调用这些程序,实现对微博系统进行采集用户数据、微博内容,写入数据等功能。新浪微博的开放API接口程序具有使用方便、数据目的性强、获取相应数据简洁等特点。为了方面广大的开发者调用新浪数API接口,新浪微博API为开发者提供了丰富的开放接口,为程序更简洁、更高效地获取微博数据提供了保障,同时也为开发者做好了SDK的开发包。
我们小组首先尝试使用API获取微博数据。具体实现路线如下。
OAuth2.0认证
开发者向新浪微博OAuth2.0服务提供商申请应用,获得应用的专属App Key、 App Secret和 设置回调页。
将上一步得到的App Key和App Secret发给新浪微博用户授权地址请求Request Token授权。
授权后,在浏览器中得到一串pin码,开发者再向新浪微博Access Token地址发起请求,将上一步授权的Request Token换取成Acess Token。
经服务器同意用户请求,并向其颁发通过新浪微博授权的Access Token。
用户可将获得的授权的Access Token向API服务器请求用户身份资源的使用授权。
配置APi
先要配置文件perties
Client_ID为AppKey,client_SERCRET为APPsercret,redirect_URL为自己填写的应用地址。然后运行OAuth4Code通过输入返回的CODE获取access_token。
我们小组以时间为线索,通过API获取当前的公共微博数据。分高效的微博抓取方法。每次调用接口可以返回20条当前微博。为了使结果更为直观,我们改写了程序,屏蔽掉了一些用处不大的返回值。
但是由于新浪API同一IP地址访问数量有限制
针对一个服务器IP的请求次数限制如下:
测试授权 普通授权 中级授权 高级授权 合作授权 1000次/小时 10000次/小时 20000次/小时 30000次/小时 40000次/小时 因此,在普通权限下我们只能每小时访问10000次,也就是获取2万条微博。当然通过申请多个开发者账号可以使这一数字成倍增长。
但是相比于网络爬虫的数据爬取量来比较的话,网络爬虫因为没有访问数量的限制,仍然很有优势。
基于Heritrix的微博数据爬取
Heritrix是Java开发的开源网络爬虫工具,由一些核心类和插件模块组成,可在中下载。下载之后在Eclipse中配置,配置完成后,由CrawlController启动线程,在线程池中,选择一个预定的URL,从所选择的URL链接地点下载远程文件到本地电脑,分析并归档下载到的文档,写入磁盘镜像目录。
用网络爬虫爬取微博信息时首先要解决登录的问题。新浪微博采用了64BASE加密算法。过程
您可能关注的文档
最近下载
- 核医学教学课件:血液和淋巴显像.ppt VIP
- 重庆市各地方周氏支族源流(1-170支族).doc VIP
- 建筑工程质量管理体系流程图.docx
- 淋巴系统核医学检查课件.ppt VIP
- (高清版)B-T 6003.1-2022 试验筛 技术要求和检验 第1部分:金属丝编织网试验筛.pdf VIP
- (已压缩)TUCST007-2020房屋建筑与市政基础设施工程施工安全风险评估技术标准.docx VIP
- 2026年国家公务员考试申论真题及参考答案(考生回忆版).docx VIP
- 部编版语文二年级上册期中常考七大重点题型专项训练.docx VIP
- 机器人操作系统(ROS)及仿真应用 课件全套 第1--9章 Linux Ubuntu入门基础--- 基于ROS的服务机器人应用实例.ppt
- 压疮的预防及护理技术操作考核评分标准编辑.docx VIP
原创力文档

文档评论(0)