- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于API微博信息采集系统设计与实现
基于API微博信息采集系统设计与实现
摘要:微博已成为网络信息的重要来源,该文分析了微博信息采集的相关方法与技术,提出了基于API的信息采集方法,然后设计了一个信息采集系统,能够对新浪微博的相关信息进行采集。实验测试表明,该信息采集系统能够快速有效地采集新浪微博信息。
关键词:新浪微博;微博接口;信息采集;C#语言
中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2013)17-4005-04
微博[1],即微型博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。中国互联网络信息中心的《第31次中国互联网络发展状况统计报告》显示,截至2012年12月底, 截至2012年12月底,我国微博用户规模为3.09亿,较2011年底增长了5873万,网民中的微博用户比例较上年底提升了六个百分点,达到54.7%[2]。随着微博网络影响力的快速扩大,政府部门、学校、知名企业、社会公众人物均开通了微博。随着公众的参与,微博成为了一个强大的虚拟社会,微博已经是网络信息的重要来源,如何用于快速有效地采集微博信息已经成为一个具有重要应用价值的研究。
1 研究方法与技术路线
国内的微博用户主要是新浪微博,因此本文拟以新浪微博为例,设计研究方法与技术路线。通过分析国内外的科技文献与实际应用案例,发现目前针对新浪微博的信息采集方法主要有两类:一种是“模拟登陆”、“网页爬虫”[3]、“网页内容解析”[4]三种技术结合的信息采集方法,二是基于新浪微博开放平台的API文档,开发者自行编写程序调用微博的API,进行微博信息的采集。对于第一种方法,难度比较高,研究技术复杂,特别是“模拟登陆”这个步骤,需要随时跟踪新浪微博的登陆加密算法,新浪微博的登陆加密算法的改变,就会造成“网页爬虫”的失败,最后导致采集不到微博信息。同时,“网页爬虫”采集到的网页需要进行“网页内容解析”,效率与性能相比基于API的数据采集存在明显的差距。基于以上因素,因此本文拟采用第二种方式进行研究。
基于新浪微博开放平台API???档的微博信息采集系统,主要采用了两个研究方法:文档分析法和实验测试法。文档分析法:参考新浪微博开放平台的API文档,把这些API说明文档编写为单独的接口类文件。 实验测试法:在VS.NET2010平台[5],以C/S模式开发程序来调用接口类,采集微博返回的JOSN数据流,实现数据采集的相关测试与开发。
根据以上两个研究方法,设计本研究的技术路线:首先是申请新浪微博开放平台App Key和App Secret,审核通过之后,阅读与理解API文档,把API文档说明具体编写成API接口代码类(c#语言),然后来测试OAuth2.0的认证,通过认证之后,可以获取到Access Token,这样就有权限来调用API的各种功能接口,然后通过POST或GET方式调用API接口,最后返回JOSN数据流,最后解析这个数据流可以保存为本地文本文件或数据库中,技术路线详细如图1所示。
2 研究内容设计
微博信息采集系统功能结构图2所示,本系统被分为七个部分,分别为:微博接口认证、微博用户登录、登录用户发微博、采集当前登录用户信息、采集他人用户信息、采集他人用户微薄、采集学校信息、采集微博信息内容。
1) 微博接口认证:新浪微博大部分API的访问如发表微博、获取私信,关注都需要用户身份,目前新浪微博开放平台用户身份鉴权有OAuth2.0和Basic Auth(仅用于应用所属开发者调试接口),新版接口也仅支持这两种方式[6]。所以系统设计与开发的第一步,需要做一个微博接口认证功能。
2)微博用户登录:通过认证之后,在新浪微博注册过的用户都可以在本系统登录,并可以通过本系统发布微博。
3)采集登录用户信息:用户登录以后,可以通过本系统查看自己的账号信息以及自己发布的微博信息与自己关注用户的微博信息。
4)采集他人用户信息:这个功能主要是通过输入微博用户的昵称,可以采集到该昵称用户的账号信息,比如他有多少粉丝,他关注了哪些人,他被多少人关注,这些信息在微博中也很有实际采集的价值。
5)采集他人用户的微博:这个功能也是通过微博用户的昵称,来采集改用户所发的所有微博信息,本功能的目的是以后可以扩展为每隔一个时间段,自动采集目标集合中的多个微博用户的微博信息到本地,用于数据内容分析。
6)采集学校信息:这个功能通过学校名称的模糊查询,来采集学校在微博中的账号ID,学校所在区域,学校的类型信息,这个是采集学校在微博影响力的基础数据。
7)采集微博信息内容:可以按微博内容的关
您可能关注的文档
- 城市公园设计中需要注意问题.doc
- 化学探究性学习模式研究.doc
- 城市历史景观角度下我国城市更新途径.doc
- “神话—原型批评”视野下《朗读者》.doc
- 2012广播媒体稳中求变实现新跨越.doc
- 城市商业综合体节能设计技术探讨.doc
- 从商业银行角度探究非利息收入利弊.doc
- 城市园林养护管理重要性分析.doc
- 城市园林管理存在问题与若干提升建议.doc
- 城市园林绿化中有害生物防治分析.doc
- 基于ANSYS齿轮强度有限元分析.doc
- 基于Apriori相容数据集间关联规则演绎方法.doc
- 基于Apriori算法教学评价系统.doc
- 基于Apriori算法在学生信息管理系统中应用与研究.doc
- 基于Apriori高效关联规则挖掘算法在教育考试系统中应用研究.doc
- 基于APT入侵网络安全防护系统模型及其关键技术研究.doc
- 基于ArcEngine与变更调查数据库土地勘测定界软件设计与实现.doc
- 基于ArcGIS Server和Flex地下管线管理信息系统建立.doc
- 基于ArcGIS乡级土地利用总体规划数据库建设技术探讨.doc
- 基于ArcGISEngine遥感影像专题图自动制作系统设计与实现.doc
最近下载
- COLMO洗衣机工程师资格认证考试题及答案.doc VIP
- 《合理用药与用药安全》课件.ppt VIP
- 配件部经理岗位职责(24篇).docx VIP
- (人教2024版)英语八年级上册Unit 4 大单元教学设计(新教材).docx
- TCECS 179-2023 健康住宅建设技术规程.pdf VIP
- 数字孪生及车间实践第二篇数字孪生研究体系.pptx VIP
- 2025年四川省绵阳市初中学业水平考试语文真题试卷含参考答案与习作例文精品.pdf VIP
- 2024版行政管理培训课件.pptx VIP
- 《公安机关互联网安全监督检查规定》培训与解读课件.pptx VIP
- 数字孪生及车间实践第一篇数字孪生的内涵及研究应用现状.pptx VIP
文档评论(0)