新浪微博用户爬方法.docxVIP

下载本文档

6
0
约2.89千字
约 31页
2018-10-12 发布于江苏
举报
版权申诉

新浪微博用户爬方法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

新浪微博用户爬方法

八爪鱼·云采集网络爬虫软件八爪鱼·云采集网络爬虫软件新浪微博用户爬虫方法本文介绍使用八爪鱼爬虫软件采集微博用户信息的方法。作为一个活跃的社交网路平台，微博具有大量用户，每个用户信息都十分有价值。将需要的用户信息采集下来，对我们分析某项微博活动、某个微博事件极有助益。本文将以采集关注某个博主的用户群体为例。这些用户群体，我们一般称之为粉丝采集网站： /kaikai0818?topnav=1wvr=6topsug=1is_hot=1 本文仅以采集关注某个博主的用户群体为例。微博上博主众多，大家可根据自身需要，更换不同博主的粉丝群体。也可以通过其他渠道或页面，采集微博用户信息。本文采集的粉丝群体字段为：粉丝ID、粉丝主页URL、关注人数、关注页URL、粉丝数、粉丝页URL、微博数、微博数URL、地址、简介、关注方式、光柱方式URL 本文的采集分为两大部分：微博登录和粉丝信息采集微博登录某博主粉丝信息采集使用功能点：文本输入登录方法（7.0版本） /tutorialdetail-1/srdl_v70.html cookie登陆方法（7.0版本） /tutorialdetail-1/cookie70.html AJAX滚动教程 /tutorialdetail-1/ajgd_7.html 八爪鱼7.0教程——AJAX点击和翻页教程 /tutorialdetail-1/ajaxdjfy_7.html 微博登录步骤1：创建采集任务 1）进入主界面，选择“自定义模式”，点击“立即使用” 将要采集的网址复制粘贴到网站输入框中，点击“保存网址” HYPERLINK /article/javascript:; 步骤2：登录微博系统自动打开网页，进入微博首页。在页面右上角，打开“流程”，以展现出“流程设计器”和“定制当前操作”两个板块。点击“登录”按钮，选择“循环点击该链接”，进入微博登录页面 2）点击账号输入框，选择“输入文字” 输入账号，点击“确定” 3）点击密码输入框，选择“输入文字” 输入密码，点击“确定” 4）点击“登录”按钮，选择“点击该链接” 5）系统会自动登录微博 6）再次选中“打开网页”步骤，打开“高级选项”，打开“缓存设置”，勾选“打开网页时使用指定Cookie” 点击如图位置，可查看此网页的Cookie 7）八爪鱼会记住这个cookie状态，下次打开这个页面的时候，就会以登陆之后的状态打开注意：由于cookie是有生命周期的，这个周期多长时间取决于采集的网站。如果cookie到期了，就需要再重新获取一次登陆之后的cookie。另外，如果需要切换账号，可以勾选“打开浏览器前清理缓存”，然后再取消cookie，重新设置其他账号即可。设置完成后，可将多余步骤删除，仅保留“打开网页”步骤某博主粉丝信息采集 HYPERLINK /article/javascript:; 步骤1：进入粉丝信息页 1）点击“粉丝”按钮，在弹出的操作提示框中，选择“点击该链接” 由于此网页涉及Ajax技术，我们需要进行一些高级选项的设置。选中“点击元素”步骤，打开“高级选项”，勾选“Ajax加载数据”，设置时间为“2秒” 注：AJAX即延时加载、异步更新的一种脚本技术，通过在后台与服务器进行少量数据交换，可以在不重新加载整个网页的情况下，对网页的某部分进行更新。表现特征：a、点击网页中某个选项时，大部分网站的网址不会改变；b、网页不是完全加载，只是局部进行了数据加载，有所变化。验证方式：点击操作后，在浏览器中，网址输入栏不会出现加载中的状态或者转圈状态。 HYPERLINK /article/javascript:; 步骤2：创建翻页循环下拉页面，找到并点击“下一页”按钮，在操作提示框中，选择“循环点击下一页” 由于此网页涉及Ajax技术，我们需要进行一些高级选项的设置。选中“点击元素”步骤，打开“高级选项”，勾选“Ajax加载数据”，设置时间为“2秒” HYPERLINK /article/javascript:; 步骤3：创建列表循环并提取数据 1）移动鼠标，选中页面里第一个粉丝信息区块。系统会识别此区块中的子元素，在操作提示框中，选择“选中子元素” 2）系统会自动识别出页面中的其他同类元素，在操作提示框中，选择“选中全部”，以建立一个列表循环 3）我们可以看到，页面中景点信息区块里的所有元素均被选中，变为绿色。选择“采集数据” 选中不需要的字段，点击垃圾桶图标，可将其删除 5）字段选择完成后，选中相应的字段，可以进行字段的自定义命名。完成后，点击“确定” 步骤4：数据采集及导出 1）点击左上角的“开始采集”，选择“启动本地采集” 注：本地采集占用当前电脑资源进行采集，如果存在采集时间要求或当前电脑