【2018年最新整理】毕业论文微博信息抓取系统.docVIP

【2018年最新整理】毕业论文微博信息抓取系统.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【2018年最新整理】毕业论文微博信息抓取系统

微博信息抓取系统 【摘要】针对微博中庞大的数据量和用户关系群,本文提出并实现了基于新浪开放平台与Oauth2.0的微博信息抓取系统。该系统主要实现的功能有:(1)微博大厅的滚动微博及其评论的抓取(2)微博用户的好友及其相互关系的抓取。通过线程池和数据库实现了微博信息的抓取和存储,并通过prefuse的API,图形化的显示出用户关系。从实际运行效果分析,该抓取系统能够满足各种SNS应用的内容填充,及网络用户社会网络关系分析。 【关键词】Oauth2.0;新浪开放平台;社会网络关系;prefuse 引言 研究背景及意义 随着移动互联网的发展,中国迎来了真正的微博时代。微博由于其内容简短,写作门槛低,发布渠道便捷化,多样化,同步化,使得信息生产趋于零时间。与其他信息交流模式不同,微博最大的特点在于技术上的便携性。2009年,3G牌照的发放标志着移动互联网时代的到来,移动手机和互联网这两种在中国发展最为迅速的媒介开始融合在一起,为微博的快速扩张做了技术上的准备,与传统博客相比,微博对用户能够产生很强粘性的原因,就在于其在技术上无可比拟的便携性。用户可以通过各种方式登陆微博,发表微博。尤其是手机和微博的绑定使得这以新媒介对微博用户的接近性满足了4A的元素,即Anything,anywhere,anyone,anytime。任何用户可以在任何时间任何地点发布任何内容。从此,人们的信息交流得到了空前的大解放。微博信息抓取系统通过开放平台的API抓取我们所需要的信息,为各式各样的SNS[1]社区应用在运营初期充实其数据量和用户量,以吸引更多的用户关注和使用。SNS社区交友是现在网络用户之间相互交流的最主要方式。当前最流行的SNS网络莫过于开心网,人人网,以及各大微博了,其中以新浪微博的活跃用户量最为庞大,本课题主要以新浪微博为主要研究和抓取对象,实现信息抓取的功能。整个系统的框架拥有较强的可扩展性,可根据需要增加其他SNS网络社区的抓取模块。另外,本系统还从网络用户的社会网络关系出发,图形化的展示了网络用户之间的社交关系 本课题主要工作 本文主要解决的问题有抓取新浪微博的微博大厅数据已经其相关的评论和用户信息。包括新浪微博的Oauth2.0认证,通过调用新浪微博的API,得到并解析服务器返回的json文档,建立相应的数据库,储存在数据库中。并通过Prefuse对抓取的微博用户好友关系进行了可视化的显示。实现全自动的抓取、解析、和数据存储过程。 大大提高了信息收集的工作效率,并大大降低了信息收集的出错率。满足了企事业公司对微博信息的内容需求和网络用户的社会关系分析。 新浪微博开放平台 微博用户的授权认证 2.1.1 新浪微博应用创建 新浪微博开放平台允许所有微博用户创建自己的应用,用户只要填写清楚开发者的详细信息和应用的相关资料就可以创建自己的应用了。应用创建成功后,开发者将会获得该应用的APP KEY和Sercret Key。我们就是通过这两个key进行相关的技术开发工作。并且通过这两个key唯一标识我们的应用。其新浪微博应用创建和发布的流程图如图1所示。 图 1 新浪开放平台应用创建流程及发布流程图 2.1.2 OAuth2.0授权认证 OAuth2.0是从2006年开始设计OAuth[2]协议的下一个版本。OAuth(开放授权)是一个开放标准,允许用户让第三方应用访问该用户在某一网站上存储的私密的资源(如照片,视频,联系人列表),而无需将用户名和密码提供给第三方应用OAuth允许用户提供一个令牌,而不是用户名和密码来访问他们存放在特定服务提供者的数据。每一个令牌授权一个特定的网站(例如,视频编辑网站)在特定的时段(例如,接下来的2小时内)内访问特定的资源(例如仅仅是某一相册中的视频)。这样,OAuth允许用户授权第三方网站访问他们存储在另外的服务提供者上的信息,而不需要分享他们的访问许可或他们数据的所有内容。 图 虽然2.0的授权机制更简单安全,但是越安全越说明其限制越多,其中access_token的有效期在开发测试阶段只有24小时。在24小时之后就必须重新授权获取新的access_token。而新浪微博的一些接口也有访问频次限制。在软件开发测试阶段,通常一个接口的访问频次限制在150次/小时,当应用审核通过正式发布以后将会有更多更大的权限。其授权标准也会有一定的提升,访问频次的限制将提高,access_token的有效期也会延长。当然开发者也可以和开放平台申请更高的访问频次和token有效期,开放平台会根据你应用的类型和规模审核你的请求。 新浪微博API JSON数据交换格式 JSON(Javascript Object Notation),是一种轻量级的数据交换格式[3] ,它是JavaScript的一个子集,但它是独

您可能关注的文档

文档评论(0)

jiupshaieuk12 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档