海量数据挖掘以新浪微博为例---结题论文427.doc

海量数据挖掘以新浪微博为例---结题论文427.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
海量数据挖掘以新浪微博为例---结题论文427

海量数据挖掘---以新浪微博为例结题论文 武剑 蒋弘观 徐航 王悦 关键词 微博 数据抓取 java API Heritrix 序言 在当前信息时代,各种信息技术高速发展。在所有网民中,微博等社交网络应用快速崛起,微博作为Web2.0时代的新兴产物,以及便捷简单的使用方式,迅速的融入了当今人们的日常生活中,并且其背后有着大量潜在数据,数据中蕴含大量有待挖掘的有价值信息。微博的使用人群数量基数大, 状态信息更新频繁、信息传播迅速,并且微博平台媒介用户占有率相对集中, 因此基于微博数据的采集技术的研究成为了十分值得关注的研究方向,是对微博数据进行进一步分析研究的基础。在中国,已有14%的互联网用户开始使用微博, 而新浪微博的市场份额占有率接近87%, 是中国微博产业的主导力量。分析主流微博客网站,对网页数据进行采集和分析,提高微博客网站访问量,对吸引网友具有积极的促进作用,对网站经营者来说具有重要意义。 本项目研究面向海量微博数据的采集技术,并以目前国内最大的微博服务供应商新浪为主要的研究对象。主要对比采用新浪开放的API与使用网络爬虫获取微博数据的采集性能与采集质量。具体研究内容为:目前新浪向公众开放了API接口进行数据的获取,但是由于API服务器的限制,只能返回一部分的信息,因此本项研究将利用新浪微博开放测试的API接口,与传统的网络爬虫方式进行数据的获取。并通过返回的json文件,以及网络爬虫分类分析人们目前最关注的是那些事件,那些话题,还有潜在的网络公众人物。并通过优化查找办法,找出最优的基于API与网络爬虫相结合的微博数据采集方法。 实验环境介绍 我们的实验采用的测试机为:Lenovo PC机,处理器:Intel(R)Core(TM)i5 CPU,内存:8.00GB,运行的环境是Win7 系统,接入的网络为校园无限网,开发所采用的IDE环境为:Eclipse。 新浪API数据挖掘方法概述 新浪微博API 由一系列的接口程序构成,开发者调用这些程序,实现对微博系统进行采集用户数据、微博内容,写入数据等功能。新浪微博的开放API接口程序具有使用方便、数据目的性强、获取相应数据简洁等特点。为了方面广大的开发者调用新浪数API接口,新浪微博API为开发者提供了丰富的开放接口,为程序更简洁、更高效地获取微博数据提供了保障,同时也为开发者做好了SDK的开发包。 我们小组首先尝试使用API获取微博数据。具体实现路线如下。 OAuth2.0认证 开发者向新浪微博OAuth2.0服务提供商申请应用,获得应用的专属App Key、 App Secret和 设置回调页。 将上一步得到的App Key和App Secret发给新浪微博用户授权地址请求Request Token授权。 授权后,在浏览器中得到一串pin码,开发者再向新浪微博Access Token地址发起请求,将上一步授权的Request Token换取成Acess Token。 经服务器同意用户请求,并向其颁发通过新浪微博授权的Access Token。 用户可将获得的授权的Access Token向API服务器请求用户身份资源的使用授权。 配置APi 先要配置文件perties Client_ID为AppKey,client_SERCRET为APPsercret,redirect_URL为自己填写的应用地址。然后运行OAuth4Code通过输入返回的CODE获取access_token。 我们小组以时间为线索,通过API获取当前的公共微博数据。分高效的微博抓取方法。每次调用接口可以返回20条当前微博。为了使结果更为直观,我们改写了程序,屏蔽掉了一些用处不大的返回值。 但是由于新浪API同一IP地址访问数量有限制 针对一个服务器IP的请求次数限制如下: 测试授权普通授权中级授权高级授权合作授权1000次/小时10000次/小时20000次/小时30000次/小时40000次/小时因此,在普通权限下我们只能每小时访问10000次,也就是获取2万条微博。当然通过申请多个开发者账号可以使这一数字成倍增长。 但是相比于网络爬虫的数据爬取量来比较的话,网络爬虫因为没有访问数量的限制,仍然很有优势。 基于Heritrix的微博数据爬取 Heritrix是Java开发的开源网络爬虫工具,由一些核心类和插件模块组成,可在中下载。下载之后在Eclipse中配置,配置完成后,由CrawlController启动线程,在线程池中,选择一个预定的URL,从所选择的URL链接地点下载远程文件到本地电脑,分析并归档下载到的文档,写入磁盘镜像目录。 用网络爬虫爬取微博信息时首先要解决登录的问题。新浪微博采用了64BASE加密算法。过程如下: 将原有字符串以utf-8编码

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档