- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
post翻页新闻如何采集post翻页新闻如何采集
简单采集Post翻页的招标信息教程本教程是演示熊猫采集器如何快速且简单的采集到我们所需要的招标新闻。我们在采集招标新闻的时候,有时候会遇到一些post翻页的招标新闻,这个时候我们发现采集就没有我们想的那么容易操作了,这个时候,其实我们只需要进行一步简单的抓包操作,就可以很轻松的采集了。下面我们就简单的演示一下。个人感觉熊猫采集器不仅操作非常简单,而且还完全免费了,有兴趣的看官们可以搜索熊猫采集,去官网上面下载。好了,废话不多说,进入到我们采集的过程上面来吧!首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准)随便输入一个项目名称,或者不输入也是可以的,系统默认会给你命名一个项目名,这里因为我是采集招标新闻,我就起了新浪新闻作为我需要的项目名然后点击下一步进入标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。普通的标题列表页我们在翻页的时候,网址是有会有翻页参数在变化的,而我们的以post提交的翻页网址是不会有任何变化,如下图的某个招标网站:可以发现,第二页和第三页网址是一模一样的,后面的的页数网址其实都是一样的,这种情况,在网站中实现这种效果可能有两种可能,一直是框架页面,它把真实的翻页网址给隐藏了,只要我们找到真实的网址,利用真实网址采集即可。还有一种就是post翻页了,这个时候我们就需要用抓包工具来分析一下是post的还是框架了,当然,这里我们讲的肯定是post翻页了,所以在进入我们标题列表的设置时候,需要进行一个抓包工作,现在的浏览器大部分都是自带一个抓包工作的,如下图:点击一下:到这里,我们就来看看我们的列表页是如何翻页了,先点击第二页,发现如下图所示:我们看到一个post,说明了这个网页是post的翻页的,我们点击打开看看里面的参数将我们的响应网址拷贝到熊猫中去,由于是post的翻页,所以我们在分析的时候要用post的方式:点击开始分析:我们选择是,让系统给我们参数:将我们这里的参数和我们刚刚抓包的的form data里面的参数对比一下,没有的就添加上去,多余的就给它删除掉。如果抓包出来的参数后面有值,而我们软件分析出来没值,我们就给添加上去,总之,以抓包结果为准,下面是我们经过对比过后整理好的图:在我们那个上图翻页参数框填写一个3看下效果可以看出,这样就变成第三页了,所以我们这个参数是翻页的参数,下面就将这个参数设置为动态的就可以进行我们的翻页采集了:如下图如果你想采集更多的页数,只需要把目标值调的更大一些即可,到这里,我们就可以点击下一步设置了,进入到我们选择内容的页的设置,随便选择一个我们要采集的链接,会发现右边我们要采集的链接全部被红框框选起来了。那么这里我们就不要进行调整,直接再次下一步设置来到内容页面模板管理,直接点击添加新模板,会把我们在上一步选中的链接作为模板,这地方也可以自己选择一个模板,然后把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板点击添加新模板之后会弹出一个设置模板的新窗口。点击软件上方的开始分析,稍等片刻之后软件会询问你是否需要软件自动提取标题正文,一般情况下我们在这里都会选择否,如果你是采集新闻类的内容,这个地方你也可以选择是,也可以选择否,(选择是的话就软件就直接帮我们分析出来标题和正文了,操作就很简单,选择否就需要我们自己找到我们要采集的内容,这种操作会很灵活,由于选择是非常简单,我们这里就选择否了)如图之后我们会发现左边款里面会出现很多我们在网页中能看见的内容,这个时候我们需要什么就勾选上采集该项即可。采集到这里的时候,也行我们会发现,正文内容不是一行就可以选中的,正文分成了很多行,这个时候就需要用到熊猫的复合语句了,选择正文的开始,用一个字段保存起来。在找到正文的结束,用和保存正文开始相同的字段保存起来在找到正文的结束:到此,我们的采集就已经完成了,下面我们要做的就是保存我们的设置后,运行就可以得到我们想要的结果啦。可以看出,我们已经将信息给采集下来了,一个post翻页的招标信息采集已经完成,是不是很简单呢?
文档评论(0)