- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
海量数据挖掘以新浪微博为例结题论文[4-27]
海量数据挖掘---以新浪微博为例结题论文
武剑 蒋弘观 徐航 王悦
关键词 微博 数据抓取 java API Heritrix
序言
在当前信息时代,各种信息技术高速发展。在所有网民中,微博等社交网络应用快速崛起,微博作为Web2.0时代的新兴产物,以及便捷简单的使用方式,迅速的融入了当今人们的日常生活中,并且其背后有着大量潜在数据,数据中蕴含大量有待挖掘的有价值信息。微博的使用人群数量基数大, 状态信息更新频繁、信息传播迅速,并且微博平台媒介用户占有率相对集中, 因此基于微博数据的采集技术的研究成为了十分值得关注的研究方向,是对微博数据进行进一步分析研究的基础。在中国,已有14%的互联网用户开始使用微博, 而新浪微博的市场份额占有率接近87%, 是中国微博产业的主导力量。分析主流微博客网站,对网页数据进行采集和分析,提高微博客网站访问量,对吸引网友具有积极的促进作用,对网站经营者来说具有重要意义。
本项目研究面向海量微博数据的采集技术,并以目前国内最大的微博服务供应商新浪为主要的研究对象。主要对比采用新浪开放的API与使用网络爬虫获取微博数据的采集性能与采集质量。具体研究内容为:目前新浪向公众开放了API接口进行数据的获取,但是由于API服务器的限制,只能返回一部分的信息,因此本项研究将利用新浪微博开放测试的API接口,与传统的网络爬虫方式进行数据的获取。并通过返回的json文件,以及网络爬虫分类分析人们目前最关注的是那些事件,那些话题,还有潜在的网络公众人物。并通过优化查找办法,找出最优的基于API与网络爬虫相结合的微博数据采集方法。
实验环境介绍
我们的实验采用的测试机为:Lenovo PC机,处理器:Intel(R)Core(TM)i5 CPU,内存:8.00GB,运行的环境是Win7 系统,接入的网络为校园无限网,开发所采用的IDE环境为:Eclipse。
新浪API数据挖掘方法概述
新浪微博API 由一系列的接口程序构成,开发者调用这些程序,实现对微博系统进行采集用户数据、微博内容,写入数据等功能。新浪微博的开放API接口程序具有使用方便、数据目的性强、获取相应数据简洁等特点。为了方面广大的开发者调用新浪数API接口,新浪微博API为开发者提供了丰富的开放接口,为程序更简洁、更高效地获取微博数据提供了保障,同时也为开发者做好了SDK的开发包。
我们小组首先尝试使用API获取微博数据。具体实现路线如下。
OAuth2.0认证
开发者向新浪微博OAuth2.0服务提供商申请应用,获得应用的专属App Key、 App Secret和 设置回调页。
将上一步得到的App Key和App Secret发给新浪微博用户授权地址请求Request Token授权。
授权后,在浏览器中得到一串pin码,开发者再向新浪微博Access Token地址发起请求,将上一步授权的Request Token换取成Acess Token。
经服务器同意用户请求,并向其颁发通过新浪微博授权的Access Token。
用户可将获得的授权的Access Token向API服务器请求用户身份资源的使用授权。
配置APi
先要配置文件perties
Client_ID为AppKey,client_SERCRET为APPsercret,redirect_URL为自己填写的应用地址。然后运行OAuth4Code通过输入返回的CODE获取access_token。
我们小组以时间为线索,通过API获取当前的公共微博数据。分高效的微博抓取方法。每次调用接口可以返回20条当前微博。为了使结果更为直观,我们改写了程序,屏蔽掉了一些用处不大的返回值。
但是由于新浪API同一IP地址访问数量有限制
针对一个服务器IP的请求次数限制如下:
测试授权普通授权中级授权高级授权合作授权1000次/小时10000次/小时20000次/小时30000次/小时40000次/小时因此,在普通权限下我们只能每小时访问10000次,也就是获取2万条微博。当然通过申请多个开发者账号可以使这一数字成倍增长。
但是相比于网络爬虫的数据爬取量来比较的话,网络爬虫因为没有访问数量的限制,仍然很有优势。
基于Heritrix的微博数据爬取
Heritrix是Java开发的开源网络爬虫工具,由一些核心类和插件模块组成,可在中下载。下载之后在Eclipse中配置,配置完成后,由CrawlController启动线程,在线程池中,选择一个预定的URL,从所选择的URL链接地点下载远程文件到本地电脑,分析并归档下载到的文档,写入磁盘镜像目录。
用网络爬虫爬取微博信息时首先要解决登录的问题。新浪微博采用了64BASE加密算法。过程如下:
将原有字符串以utf-8编
您可能关注的文档
- 浙江省温州市五校2016届高三上学期开学第1次考试化学试题Word版含答案.doc
- 浙江省温州市2015年中考数学试卷[解析版].doc
- 浙江省温州市初中毕业_升学自然科学试卷.doc
- 浙江省温州市十校联合体2011届高3年级上学期联考生物.doc
- 浙江省温州市十校联合体2013—2014学年高二上学期期末联考化学试题Word版含答案.doc
- 浙江省温州市十校联合体2013—2014学年高一上学期期中联考物理试题Word版含答案.doc
- 浙江省温州市十校联合体2014—2015学年高一上学期期中联考历史试题Word版含答案.doc
- 浙江省温州市十校联合体2014—2015学年高二上学期期末质量检测物理试题.doc
- 浙江省温州市十校联合体2012届高三第1学期期中考试语文试卷1.doc
- 浙江省温州市十校联合体2014届高3上学期期末考试历史试题.doc
- 公司新年工作规划(3).docx
- 季度回顾与展望.pptx
- 生成式人工智能在小学语文作文教学中的应用与自主学习能力提升教学研究课题报告.docx
- 高中物理电磁学教学难点分析与策略教学研究课题报告.docx
- 《农作物病虫害绿色防控技术对农业劳动力就业的影响研究》教学研究课题报告.docx
- 基于教师教学画像的小学心理健康教学资源推荐研究教学研究课题报告.docx
- 影视资源在初中历史教学中的文化传承与创新实践探讨教学研究课题报告.docx
- 《旅游开发对文化遗产地文化遗产保护的影响与风险防范研究》教学研究课题报告.docx
- 小学语文教师数字能力提升的案例教学法实践探究教学研究课题报告.docx
- 幼儿园心理健康教育的动物治疗教学研究课题报告.docx
文档评论(0)