- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何监控并采集各大招标网站的招标信息在网上听很多做招投标网站的朋友说,每天都是有大量的招标信息需要整理,工作量大到惊人,而且最重要效率还是不高,在这里,笔者准备做一个关于采集招投标网站信息的一个教程,此教程里面的方法可以采集目前网络上大部分招投标网站。此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容易,不需要专业基础,新手首选。且功能特别强悍复杂,只要是浏览器能看到的内容,都可以用熊猫批量的采集下来。如各种电话号码邮箱,各种网站信息搬家,网络信息监控、网络舆情监测、股票资讯实时监控等等。熊猫采集器是唯一拥有正文自动解析功能功能的采集软件,对于本案例涉及到的招投标的信息获取,利用这个功能,会节省很大一部分的时间,从而我们的工作效率就会变的更高。这里我们首先以一个get翻页的招投标网站作为例子,后面再讲一个针对post翻页的招投网站的例子,基本上所有网站所使用的方式都是这两种之一了,第一个例子用的是江苏招标网,第二例子用的是四川省公共资源交易服务中心的里面的招标信息。有需要的看官可以去百度收索一个熊猫采集软件下载即可。熊猫的免费版就包含实现本演示示例的所需要的全部功能。好了,下面进入我们的采集环节吧!首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)这个时候是进入我们的基础设置,在这里,我们可以给我们创建的项目命名一个名称已方便我们以后好区分我们之前设置过的项目,当然,我们不设置也是可以的,因为我这里是采集招投标的信息,我就去了一个招标采集的名称。点击下一步设置,进入标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。我们采集江苏招标网的时候进入招标信息,里面就是我们要的标题列表页。下面我们将这个标题列表页的网址拷贝到我们的软件中来点击开始进行预分析的按钮,会出现下图的提示如果我们需要翻页采集,那么选择是即可,不要则选择否即可。我这里并不是说只采集一页,所以我选择的是,这个主要根据你们的实际情况来决定。下面post的翻页的案例,我们会通过选择否去进行操作点击下一步设置,进入选择内容页的设置,随便选择一个我们要采集的链接,会发现右边我们要采集的链接全部被红框框选起来了。那么这里我们就不要进行调整,直接再次下一步设置来到内容页面模板管理,这里我会用到我刚刚说的熊猫正文自动解析功能,也就是方式2,由系统为我们自动自动分离出标题和正文,如图所示:这样,一个普通的get翻页的招标网站就设置完成了。如果看官我们想通过方式1设置内容的采集,那也是很简单的,这里我就不详细说了,下面的另一个例子我就用方式一来设置内容的采集。这里我们点击保存,确认出来查看结果就可以了。通过结果可以看出,改网站上面的招标信息已经被我们采集下来了。以后对改网站实行招标监控只需要将我们的软件定个时间运行即可,是不是感觉很好用而且设置还很简单?好了,下面笔者再演示一个post翻页的招标信息网站,希望可以帮助到大家前面的两步我们直接跳过,直接进入到标题列表及翻页设置的环节。普通的标题列表页我们在翻页的时候,网址是有会有翻页参数在变化的,而我们的以post提交的翻页网址是不会有任何变化,如下图的我们要演示招标网站:可以发现,第二页和第三页网址是一模一样的,后面的的页数网址其实都是一样的,这种情况,在网站中实现这种效果可能有两种可能,一直是框架页面,它把真实的翻页网址给隐藏了,只要我们找到真实的网址,利用真实网址采集即可。还有一种就是post翻页了,这个时候我们就需要用抓包工具来分析一下是post的还是框架了,当然,这里我们讲的肯定是post翻页了,所以在进入我们标题列表的设置时候,需要进行一个抓包工作,现在的浏览器大部分都是自带一个抓包工作的,你可以在你的浏览器空白处右击一下,会出来一个小界面,点击里面的审查元素,如下图:点击一下:到这里,我们就来看看我们的列表页是如何翻页了,先点击第二页,发现如下图所示:我们看到一个post,说明了这个网页是post的翻页的,我们点击打开看看里面的参数将我们的响应网址拷贝到熊猫中去,由于是post的翻页,所以我们在分析的时候要用post的方式:点击开始分析:如果选择的是,系统会将post提交的参数默认提供给我们,但是有时候未必会准备,所以我们以抓包的参数以及参数值为准,只需将参数值粘贴复制到熊猫中即可,选择否的话那么所有的参数我们就复制粘贴进去即可仔细将上面的参数和你抓包的参数进行对比,最好和抓包的一样,不多不少。否则可能出现我们不想要的结果。下面我们在post翻页里面进行翻页处理。在我们上图翻页参数框填写一个3,点击post参数验证,看右侧是什么效果,如下图:可以看出,这样就变成第三页了,所以我
您可能关注的文档
- 第01课 酒店人性化设施设备.ppt
- 2013年安徽地理考试说明解读 2Microsoft PowerPoint 演示文稿.ppt
- CMA中文P2冲刺宝典掌中宝.pdf
- 易联达400招商文件2012要领.ppt
- 【全程复习方略】2015届高考地理二轮 专题突破篇1.2.3第3讲主要工业地域与我国的工业发展.ppt
- 电脑公司介绍英文版教材.ppt
- 西欧市场的虚拟运营商的生存之道_20140612.pdf
- 03生命延续物质基础课件.pdf
- 工业化_产业集聚及制度演化_浙江模式再思考.pdf
- 第二篇 第一节商品的原料.ppt
- 陕西省长安区完整版《证券分析师之发布证券研究报告业务》资格考试必背100题题库大全及答案一套.docx
- 陕西省长安区整理《证券投资顾问之证券投资顾问业务》资格考试必背100题完整题库附解析答案.docx
- 陕西省长安区完整版《证券投资顾问之证券投资顾问业务》资格考试大全及答案【全优】.docx
- 陕西省长安区完整版《证券投资顾问之证券投资顾问业务》资格考试完整题库加答案.docx
- 店铺的活动策划方案.pptx
- 2025年健康养老网络解决方案协议.docx
- 店铺营销知识培训.pptx
- 2025年大型桥梁项目可行性研究报告.docx
- 2025年旋耕刀项目可行性研究报告.docx
- 2025年技术共赢协议.docx
文档评论(0)