- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
微博关键词爬虫抓取的方法
微博关键词爬虫抓取方法本文介绍使用八爪鱼爬虫软件采集抓取微博关键词的方法。采集网站:/?sudaref=display=0retcode=6102? 本文仅以“杨幂”、郑爽 、“赵丽颖”这三个关键词挖掘举例说明,大家如果有挖掘微博其他关键词的需求,可以更换关键词进行采集。?采集的内容包括:微博下拉框关键词? 使用功能点:l?文本循环l?Ajax点击l?Cookie登陆方法(7.0版本)注:第一次用八爪鱼采集微博的童鞋,可以先制作一个简单的预登陆规则步骤1:创建微博关键词爬虫抓取任务?1)进入主界面,选择“自定义模式” ?微博关键词爬虫使用步骤1?2)将要采集的网址复制粘贴到网站输入框中,点击“保存网址” ?微博关键词爬虫使用步骤2??步骤2:登录微博1)系统自动打开网页,进入微博首页。在页面右上角,打开“流程”,以展现出“流程设计器”和“定制当前操作”两个板块。点击“登录”按钮,选择“点击该链接”,进入微博登录页面?微博关键词爬虫使用步骤3?2)点击账号输入框,选择“输入文字”,输入账号,点击“确定”?微博关键词爬虫使用步骤4?3)点击密码输入框,选择“输入文字”输入密码,点击“确定”?微博关键词爬虫使用步骤5?4)点击“登录”按钮,选择“点击该链接”?微博关键词爬虫使用步骤6?5)系统会自动登录微博6)微博关键词爬虫使用步骤77)??步骤3:设置cookie登录1)再次选中“打开网页”步骤,打开“高级选项”,打开“缓存设置”,勾选“打开网页时使用指定Cookie”?微博关键词爬虫使用步骤8?2)八爪鱼会记住这个Cookie状态。下图中新建了一个任务,打开微博首页。可以看见,八爪鱼中以登陆之后的状态打开之后就可以正式进入采集了。??微博关键词爬虫使用步骤9??步骤4:创建文本循环1)同上操作选择自定义采集复制网址打开网页之后,打开右上角的流程按钮,从左边的流程展示界面拖入一个循环的步骤,如下图?微博关键词爬虫使用步骤10?然后打开高级选项,在循环方式中选择文本列表,在列表下拉框中输入“杨幂”、郑爽 、“赵丽颖”并用回车键隔开。最后选择“确定”。?微博关键词爬虫使用步骤11?2)接着鼠标选中输入框,在右面的提示框中选择“输入文字”?微博关键词爬虫使用步骤12?3)接着在弹出的输入框中选择“确定”,不用输入文本。?微博关键词爬虫使用步骤12?然后在左边的流程中把“输入文本”拖到循环框中?微博关键词爬虫使用步骤13?之后,在右边的高级选相中勾选使用当前循环里的文本填充输入框。选择“确定。”?微博关键词爬虫使用步骤14?步骤5:提取关键词1)鼠标选中输入框中的词,然后在右面的提示框中选择“鼠标移动到该元素上”,?微博关键词爬虫使用步骤15?2)此步骤涉及Ajax技术。打开“高级选项”,勾选“Ajax加载数据”,设置时间为“5秒”。完成后,点击“确定”??微博关键词爬虫使用步骤16?再次选中关键词,然后选择“选中全部”?微博关键词爬虫使用步骤17??3)最后选择“采集以下链接文本”??微博关键词爬虫使用步骤18??4)选完需要的数据以后,可以打开右上角的流程按钮,对字段进行修改。?微博关键词爬虫使用步骤19?步骤4:数据采集及导出?1)点击左上角的“保存”,然后点击“开始采集”?微博关键词爬虫使用步骤20?选择“启动本地采集”??微博关键词爬虫使用步骤21?2)采集完成后,会跳出提示,选择“导出数据”,选择“合适的导出方式”,将采集好的数据导出, 这里我们选择excel作为导出为格式,一份完好的微博下拉关键词就采集好了,数据导出后如下图???微博关键词爬虫使用步骤22?相关采集教程:微博图片采集:/tutorialdetail-1/wbpiccj.html新浪微博评论数据的抓取与采集方法:/tutorialdetail-1/wbplcj-7.html微博粉丝信息采集:/tutorialdetail-1/wbyhxxcj.html微博数据采集:/tutorialdetail-1/xlwbcj_7.html大众点评评价数据的采集:/tutorialdetail-1/dzdppj.html八爪鱼采集遇到一二页重复循环的解决办法:/tutorialdetail-1/yeycf_7.html八爪鱼——90万用户选择的网页数据采集器。1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。4、功能免费+增值服务,可按需选择。免费版具备所
您可能关注的文档
最近下载
- 具身智能机器人操作系统与应用技术.pdf VIP
- 具身机器人行业市场前景及投资研究报告:具身智能大脑,人形机器人发展.pdf VIP
- 半导体外延工艺技术发展趋势.pptx VIP
- 离散制造数字化智能工厂解决方案.pdf VIP
- 2025年度华医网继续教育答案-常见心血管疾病的中西医结合诊疗策略.docx VIP
- GB∕T 1355-2021 小麦粉 GB∕T 1355-2021 小麦粉.pdf
- 欧洲人的标准 EN10088-1-2005-Eng.pdf VIP
- Panasonic XQG70-E70XS E70GS E70GWwashing machine Manual说明书用户手册.pdf
- 函数的定义与函数的性质.pptx VIP
- 人工智能行业市场前景及投资研究报告:养老机器人,AI养老.pdf VIP
文档评论(0)