- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Powercap您需要具备知识
您需要具备的知识
了解基本的html语法、浏览器与服务器交互的过程、原理
懂得一些基本的正则表达式语法。虽然Powercap提供了非常丰富的提取方式,但无疑正则表达式是一个非常强大的工具。如果你以前完全没有听说过正则表达式,可以参考这篇教程了解一些基本的语法。
懂得基本的JavaScript语法,对于绝大部分网站的抓取,您并不需要脚本编程,但是如果网站使用了非常复杂的post方式提交数据,那么便需要脚本语言了。
2. 抓取网站的操作步骤
搞清楚感兴趣的网站的页面结构,里边包括哪几种页面类型,每个页面类型是如何交互的(GET或POST),如果是POST方式,用抓包软件(POST参数捕获工具或Fiddler2)抓取发送的数据
设置页面导航的起始地址,起始地址可以是一个单独的地址,也可以是一组地址
设置页面如何导航,主要是提取页面中的链接地址
设置如何提取页面数据
3. 什么是页面
在Powercap中,页面表示具有相同或相似结构的一组实际页面的集合,在powercap中你可以为每个站点添加任意多的页面,每个页面之间的链接方式也可以任意跳转,您也可以为每个页面设置一组数据提取规则。如果在添加站点的时候选择了“创建页面模板”选项,则自动建立4个页面,帮助你省去一步步添加页面的麻烦。
4. 采集流程介绍
Powercap的采集流程如下图所示,首先设置一组起始地址,从起始地址开始逐个下载网页,根据每个页面类型设置的链接提取规则提取网页内部的链接,然后进一步下载新的网页,提取完链接地址后再根据每个页面设置的数据抓取规则提取里边的数据,然后保存到数据库。
需要注意的是每个链接提取规则以及数据提取规则都是针对特定的页面类型的,不同的页面类型可以设置不同的抓取规则,您可以通过分析网站的结构来得到网站所有的页面类型。当然你也可以直接设置所有的页面为同一种页面类型,缺点是会影响抓取效率和抓取数据的效果。
5. 设置起始地址
选择需要设置的页面,点击属性,在出现的对话框中选择“设置起始地址”复选框,点击点击下一步,如下图所示:
如果需要设置POST参数,可以使用“捕获POST参数”功能或者Fiddler来抓取post参数。另外您还可以点击“批量生成网址”来生成一组网址。
在起始地址列表中,你可以为此页面设置一个或多个起始地址,另外你还可以通过插入范围来批量输入网址,如/{1,100,2}.htm将生成如下所示下述地址:
/1.htm
/3.htm
………………………….
/99.htm
此外,还可以设置如{a,z,1},系统自动将{a,z,1}替换成a,b,c,…,z等字符。
{001,100,2}将会被替换成001,003,….,099等。
每个对应的网址还可以设置Post参数,此功能需要网站开启“启用脚本支持”。
6. 在页面之间进行导航
6.1页面导航基本知识
GET方式读取网页需要
URL地址 必选 该值可变 Cookie 可选 由Powercap自动管理 Refer URL 偶尔需要 特殊的Request Header 通常不需要 ? ?
POST方式读取网页需要
URL地址 必选 该值固定 POST参数 必选 该值可变 Cookie 可选 由Powercap自动管理 Refer URL 偶尔需要 特殊的Request Header 通常不需要 ? ?
因此提取网页链接的时候分为两种:1.对于GET方式,提取网页链接即可;2.对于POST方式,由于url固定,只需提取POST参数即可。
?
6.2 设置导航方式
在首页中选中“需要提取网址”后,点击下一步,直到出现下面的对话框:
在此对话库中,您需要设置:
链接目标页面(必选):提取到的链接对属于哪种页面类型
POST地址(仅对POST方式必选):进行POST抓取时的地址
对提取结果进行编码:有些网址或者POST参数包含英文字母以外的字符(比如汉字),此时网站可能需要对提交的网址进行编码。
如果提取到的网址需要POST访问,则在POST地址中输入目标网址,如果此字段为空则用提取到的链接地址进行普通的GET访问。一般情况下POST访问需要同时选中“对提取结果进行编码”。
有两种方式提取网页中的链接:通配符提取和正则表达式提取。
对于通配符提取,提取范围是网页中的所有链接,可以输入链接地址中的特征字符,或者输入链接标题包含的字符串,如果两者都不输入的话表示提取网页中的所有链接。使用通配符提取时可以设置为启用点击模式,即模拟浏览器中点击链接的操作,通常适用于无法直接获取链接地址的情况。如果选中了“使用通配符*和?”进行匹配,需要注意是严格匹配,有时需要在语句两侧输入“*匹配?条件*”。
正则表达式提取的范围是网页的整个源代码,这样你可以提取到网页上的任意地址。关于正则表达式,参
您可能关注的文档
最近下载
- 群体烧伤应急预案(3篇).docx VIP
- 工程造价毕业论文--浅谈工程造价的控制-毕业论文.doc VIP
- 2025年高中信息技术学业水平考试真题及答案详解A卷 .pdf VIP
- 银行中高端客户理财规划和资产配置报告方案.docx VIP
- 2025-2026学年度武汉市部分学校高三年级九月调研考试 物理试卷(含标准答案).pdf
- 2025年国家药品监督管理局药品审评中心考试真题(附答案).docx VIP
- 外用电梯基础施工方案.docx VIP
- 老人护理穿脱衣ppt.pptx
- 压力测试报告标准版.doc VIP
- 宁夏宁东泰华热电有限公司公开招聘工作人员11人笔试备考试题及答案解析.docx VIP
原创力文档


文档评论(0)