- 5
- 0
- 约1.22万字
- 约 24页
- 2016-04-07 发布于湖北
- 举报
微博信息抓取系统
【摘要】针对微博中庞大的数据量和用户关系群,本文提出并实现了基于新浪开放平台与Oauth2.0的微博信息抓取系统。该系统主要实现的功能有:(1)微博大厅的滚动微博及其评论的抓取(2)微博用户的好友及其相互关系的抓取。通过线程池和数据库实现了微博信息的抓取和存储,并通过prefuse的API,图形化的显示出用户关系。从实际运行效果分析,该抓取系统能够满足各种SNS应用的内容填充,及网络用户社会网络关系分析。
【关键词】Oauth2.0;新浪开放平台;社会网络关系;prefuse
引言
研究背景及意义
随着移动互联网的发展,中国迎来了真正的微博时代。微博由于其内容简短,写作门槛低,发布渠道便捷化,多样化,同步化,使得信息生产趋于零时间。与其他信息交流模式不同,微博最大的特点在于技术上的便携性。2009年,3G牌照的发放标志着移动互联网时代的到来,移动手机和互联网这两种在中国发展最为迅速的媒介开始融合在一起,为微博的快速扩张做了技术上的准备,与传统博客相比,微博对用户能够产生很强粘性的原因,就在于其在技术上无可比拟的便携性。用户可以通过各种方式登陆微博,发表微博。尤其是手机和微博的绑定使得这以新媒介对微博用户的接近性满足了4A的元素,即Anything,anywhere,anyone,anytime。任何用户可以在任何时间任何地点发布任何内容。从此,人们的信息交流得到了空前的大解放。微博信息抓取系统通过开放平台的API抓取我们所需要的信息,为各式各样的SNS[1]社区应用在运营初期充实其数据量和用户量,以吸引更多的用户关注和使用。SNS社区交友是现在网络用户之间相互交流的最主要方式。当前最流行的SNS网络莫过于开心网,人人网,以及各大微博了,其中以新浪微博的活跃用户量最为庞大,本课题主要以新浪微博为主要研究和抓取对象,实现信息抓取的功能。整个系统的框架拥有较强的可扩展性,可根据需要增加其他SNS网络社区的抓取模块。另外,本系统还从网络用户的社会网络关系出发,图形化的展示了网络用户之间的社交关系
本课题主要工作
本文主要解决的问题有抓取新浪微博的微博大厅数据已经其相关的评论和用户信息。包括新浪微博的Oauth2.0认证,通过调用新浪微博的API,得到并解析服务器返回的json文档,建立相应的数据库,储存在数据库中。并通过Prefuse对抓取的微博用户好友关系进行了可视化的显示。实现全自动的抓取、解析、和数据存储过程。 大大提高了信息收集的工作效率,并大大降低了信息收集的出错率。满足了企事业公司对微博信息的内容需求和网络用户的社会关系分析。
新浪微博开放平台
微博用户的授权认证
2.1.1 新浪微博应用创建
新浪微博开放平台允许所有微博用户创建自己的应用,用户只要填写清楚开发者的详细信息和应用的相关资料就可以创建自己的应用了。应用创建成功后,开发者将会获得该应用的APP KEY和Sercret Key。我们就是通过这两个key进行相关的技术开发工作。并且通过这两个key唯一标识我们的应用。其新浪微博应用创建和发布的流程图如图1所示。
图 1 新浪开放平台应用创建流程及发布流程图
2.1.2 OAuth2.0授权认证
OAuth2.0是从2006年开始设计OAuth[2]协议的下一个版本。OAuth(开放授权)是一个开放标准,允许用户让第三方应用访问该用户在某一网站上存储的私密的资源(如照片,视频,联系人列表),而无需将用户名和密码提供给第三方应用OAuth允许用户提供一个令牌,而不是用户名和密码来访问他们存放在特定服务提供者的数据。每一个令牌授权一个特定的网站(例如,视频编辑网站)在特定的时段(例如,接下来的2小时内)内访问特定的资源(例如仅仅是某一相册中的视频)。这样,OAuth允许用户授权第三方网站访问他们存储在另外的服务提供者上的信息,而不需要分享他们的访问许可或他们数据的所有内容。
图
虽然2.0的授权机制更简单安全,但是越安全越说明其限制越多,其中access_token的有效期在开发测试阶段只有24小时。在24小时之后就必须重新授权获取新的access_token。而新浪微博的一些接口也有访问频次限制。在软件开发测试阶段,通常一个接口的访问频次限制在150次/小时,当应用审核通过正式发布以后将会有更多更大的权限。其授权标准也会有一定的提升,访问频次的限制将提高,access_token的有效期也会延长。当然开发者也可以和开放平台申请更高的访问频次和token有效期,开放平台会根据你应用的类型和规模审核你的请求。
新浪微博API
JSON数据交换格式
JSON(Javascript Object Notation),是一种轻量级的数据交换格式[3] ,它是JavaScript的一个子集,但它是独
您可能关注的文档
最近下载
- 会计报表附注(企业会计准则).pdf VIP
- 2025年深圳市考公务员考试《行测》真题及答案.docx
- 2025年山东省公务员考试《行测》真题及答案.pdf
- 股权转让合同协议简单范本.doc VIP
- 2025年山东省公务员考试《行测》真题及答案.docx
- 2025年江西省公务员考试《行测》真题及答案.pdf
- 数字普惠金融对中小企业融资约束的影响研究.docx VIP
- 【新教材】人教版(2024)七年级上册数学第五章 一元一次方程 综合素质评价试卷(Word版,含答案).docx VIP
- 2025年江西省公务员考试《行测》真题及答案.docx
- 2025年河北省公务员考试《行测》真题及答案.pdf
原创力文档

文档评论(0)