- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如何实现新浪微博博主微博信息采集与监控.
新浪微博博主微博信息采集与监控随着大数据和社交网络的火爆发展,社交网络上产生的数据也越来越有价值,特别是微博微信作为时下最火热的社交平台,如果能对这两个平台上的数据进行深入分析挖掘,那么价值将非常巨大,但是在采集过程中,很多朋友也因为新浪的防采集很是头痛,笔者通过多方比较尝试,笔者最终顺利完成了整个数据采集过程,要采集的数据为指定城市的所有微博用户的相关信息。比如微博内容、微博评论数、微博转发数等等,进入正题,看看具体一步一步怎么操作来实现的。此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容易,不需要专业基础,新手首选。且功能特别强悍复杂,只要是浏览器能看到的内容,都可以用熊猫批量的采集下来。如各种电话号码邮箱,各种网站信息搬家,网络信息监控、网络舆情监测、股票资讯实时监控等等。如果有兴趣的看官们,可以百度熊猫采集软件下载即可,熊猫的免费版就已经包含我下面演示所以功能。好了,下面进入我们的采集微博环节吧!首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)这个时候是进入我们的基础设置,在这里,我们可以给我们创建的项目命名一个名称已方便我们以后好区分我们之前设置过的项目,当然,我们不设置也是可以的,因为我这里是采集新浪微博的信息,我就去了一个新浪采集的名称。进入到标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。在这里,其实我们见到的每一个博主发的微博就是我们要的标题列表页面,但是我们不能将上面的网址拷贝到熊猫中,因为真正的内容是js加载进来的,我们需要通过第三方软件,也就是抓包工具,找到我们要采集的这些数据真实存在的地方(目前大部分浏览器是自带抓包的,不是很明白看客可以百度查看一下抓包的说明)。这里我就利用浏览器抓包来获取我们要采集的部分数据了:右击浏览器空白地方会有一个审查元素。点击进入,如图:然后我们刷新一下这个内容页面,也就是我们的模板页面,会发现出现很多网址,这时候我们要采集的东西就可以在这些网址里面进行查找;在新浪上面,我们通过抓包找到真实页面的网址是下面我们看到的网址当然,这样的网址后面有太多参数,看起来很不舒服,有些参数对我们来说是没有作用的,所以我们可以适当的去删除一些没有作用的参数,下面是我简化过后的网址因为这个网址是特殊的网页,里面的内容都被进行了编码,所以我们在配置项目的时候到熊猫软件的高级项目设置里面勾选上一个功能即可处理,就可以将这些编码还原成正常文字。点击确认出来即可,将我们刚刚抓包抓到的网址放入到熊猫中,点击开始运行分析:这个提示框的意思是,如果我们需要采集多页,也就是翻页采集,那么我们选择是即可(注意,选择是的时候再极少情况下可能将我们的翻页设置设置的并不准确,这个时候我们就选择否,然后自行进行翻页设置),如果不需要,则选择否即可,这个可以根据我们的需要进行设置。这里面的翻页设置很特殊,由于这里的信息我们是用来监控用的,所以没必要采集后面一些比较旧的信息,暂且就不在这里做分页了。所以选择否,这个时候,我们突然发现分析什么都没分析出来,原因是因为新浪的访问需要带上cookie去访问,我们去做一个模拟登录就可以了。如图:放入到熊猫模拟登录再次去运行我们这个网址,发现出来内容了,如下图这个时候出现了’\’、’ \n’、’\/’等一些转义字符,这个时候我们就需要将源码进行一个修缮了,将这些东西都恢复到一个我们看起来很正常的状态下面附上我的详细修缮图,做完这些工作,我们再去分析,发现已经没有任何问题了,如下图这个时候再点击下一步设置,进入到选择内容页的设置,因为我们要进去采集的每一个博主每发的一个博客,我们都是通过点击时间才能进去看,也就是所我们在选择内容页的地方应该将时间框选起来,如下图再选中下面的需要同时采集改链接所斜内容,这里我们要采集的内容页链接都被正确的包含起来,那么我们就直接下一步,进入到内容页面模板管理,这里系统默认会把我们在上一步选中的链接作为模板,在这里,我们也可以自己选择一个链接作为模板,只要把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板即可,但是这里我们就不要自己去找模板了,直接使用上一级传过来的就可以了。如下图:进入之后,我们就能里面看见刚刚父页面的内容了,有正文内容,有转发有评论,这个时候我们就可以将我们需要的内容框选住,采集下来即可这样,我们的博主微博的采集就全部设置完毕,我们点击出来运行一下我们的项目,这里你可以采集的是任何一个博主,不必非和我这个一样。可以看出,我们的信息已经全部爬下来了。这样,我们整个教程也就结束了,有兴趣的看官们也可以自己试试,我这里以后也会持续更新更多的采集案例。教程注意:1.因为采集的新浪网站,
您可能关注的文档
- 如何塑造企业坚实的中层管理团队(MTP)..doc
- 如何塑造企业信仰..doc
- 如何塑造健康的人格(戴志权)..doc
- 如何塑造健康的人格..doc
- 如何塑造全方位的人才_制造型企业如何快速大幅提升竞争力..doc
- 如何塑造管理者的性格魅力..doc
- 如何增强“空降兵”的领导力..doc
- 如何增强广播的传播效果..doc
- 如何处理大数据量的查询..doc
- 如何处理孩子的情绪(超级实用)..doc
- 童年的秘密话题作文11篇.docx
- 童年的朋友:写人作文(10篇).docx
- 城市智能停车服务协议.doc
- 和你在一起700字初中初二作文(11篇).docx
- 人教版九年级上册数学精品教学课件 第二十四章 24.1.1 圆.ppt
- 人教版九年级上册数学精品教学课件 第22章 22.3.3 抛物线形问题.ppt
- 人教版九年级上册数学精品教学课件 练习册 第二十三章 旋转 23.2 中心对称-23.2.1 中心对称.ppt
- 沪科版八年级下册数学精品上课课件 18.2 勾股定理的逆定理 第2课时.ppt
- 人教版九年级上册数学精品教学课件 练习册 第二十四章 圆 24.1 圆的有关性质-24.1.3 弧、弦、圆心角.ppt
- 人教版九年级上册数学精品教学课件 第24章 24.2.1 点和圆的位置关系 (3).ppt
最近下载
- T∕CHCA 002-2024 热喷涂稀土合金复合涂层钢筋.pdf
- 建设工程工程量清单计价规范.docx VIP
- 第39讲建筑工程费用定额的适用范围及应用一bak.pdf VIP
- B3201_T 1211-2024 既有公共建筑能效提升节能量核定技术规程.pdf VIP
- 安全仪表系统检验测试计划.docx VIP
- 2025年义务教育2022年版《道德与法治课程标准》真题试卷附参考答案.docx VIP
- 智能安防巡逻机器人解决方案.doc VIP
- 常州站车站行车工作细则.pdf VIP
- 专用设备的操作手册编写与用户培训考核试卷.docx VIP
- 工程造价咨询服务方案 第二章 工作流程及进度控制方案.docx VIP
文档评论(0)