- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
教程2抓取电子商务网站
2: 抓取电子商务网站里面的数据
1 抓取过程回顾:
正如你会记得以前的教程,提取网页使用screen-scraper通常包括四个主要步骤:
1,采用代理服务器,以确定需要被要求为了得到准确的信息
2. 创建scraping session的定义的页面序列屏幕刮板将请求。
3.生成提取模式(extractor patterns)来定义你需要的确切信息 从每一页。
4. 写小脚本或程序代码来调用或处理的数据。
正如在第一个教程,我们将记录一个浏览器会话使用代理服务器。请记住,代理会议认为的HTTP请求,并为这一段时间的运行所有响应。
此时启动通过单击开始按钮,代理服务器代理服务器,然后配置你的Web浏览器当你在第一个教程(如果需要使用我们你的浏览器的文档)。
在您的Web浏览器(在配置为使用代理服务器)去这个网址:/shop/。
请记住,您可能要使用代理服务器和一个一个浏览器来查看教程。
记得这个要打勾 Dont record binary files.
记录页
搜索结果页
我们会做一个在购物网站上对于“DVD”产品目录中搜索。做打字DVD插入在主页的右上角位于搜索框,然后点击搜索按钮的。你会看到屏幕上出现轻微的工作,刮刀,那么,一旦完成,你应该看到一个交易表的新行中的HTTP。添加双击并输入备注字段的说明,搜索结果以适当的方式处理事务它。
详细资料页
稍后我们将刮详细信息页,让我们的纪录者之一了。点击链接速度的DVD对这一观点的具体细节。新增附注,详细信息页输入适当的交易通过双击在说明字段。
停止代理会话
这些就是我们有兴趣在这一点上,所以,尽管停止单击停止代理常规选项卡上的代理服务器按钮会议的网页。您还需要重新配置您的浏览器,以便它不再使用的屏幕作为代理服务器刮刀。
Create the Scraping Session创建一刮会议通过单击(添加新的刮会议)按钮或菜单选择新刮会议于该文件。在名称字段中输入购物网站(如果你已经下载和进口本教程的第一届会议在刮你会想你的名字刮会议别的东西,也许“我的购物网站”)。这是刮会议文件将保存所有的,我们将提取数据。记住,一刮会议是一个简单的站点容器网络对所有人的文件和其他对象,这将使我们考虑提取数据从一个。
Add Scrapeable Files我们现在将被加入到我们scrapeable文件刮会议。你会记得第一个教程,一个scrapeable文件代表您请求的网页想屏幕刮刀。添加会话中的对象树,然后在第一届会议刮一下scrapeable文件到代理购物站点进展标签。查找表中的HTTP事务下一页说明,URL应该是这样:
/shop/index.php?main_page=advanced_search_resultkeyword=dvdsort=2apage=2这个URL对应于搜索结果的第二页。我们将使用此文件,因为它应该包含),包括首次在所有参数的网址(我们需要请求任何搜索结果页表。点击后在此行中,信息相对应的文件将出现在下部窗格中。将文件添加到购物网站刮名单会议通过了选择它的落生成scrapeable文件,并单击Go按钮后scrapeable文件将出现在刮会议,如果不是这样命名,重命名它搜索结果。
Scrapeable文件参数
接下来,在参数标签。
当我们以这种方式生成的屏幕掏出刮刀从网址中的参数和参数选项卡下把我们这些scrapeable。因为这些是GET参数(而不是POST参数),当scrapeable文件是由屏幕刮刮援引运行会议上,再次追加参数将得到的网址。让我们在URL中嵌入了在仔细看看每个参数:main_page: advanced_search_result
keyword: dvd
sort: 2a
page: 2
只有两个,我们很可能感兴趣的是关键字和网页。我们可以猜测,关键字是指我们在搜索框中输入最初文本。该网页参数指的是什么页面,我们在搜索结果是。我们可以猜测,如果我们要替换页的URL参数,这将造就2在搜索结果的第一页。尝试通过抚育在Web浏览器下面的页面:
/shop/index.php?main_page=advanced_search_resultkeyword=dvdsort=2apage=1
看起来就像我们的理论是正确的。您应该看到的搜索结果的第一页。同样重要的是要注意,关键字和页面参数是那些需要是动态的。
什么是初始化脚本
这是一个常见的做法,运行在一个非常刮会话初始化变量等可以开始一个脚本。这是一个网站,尤其是在遍历多个页面像我们的小电子商务网站非常有用。
Creating the Script
生成脚本通过单击(添加一个新的脚本)按钮或选择File菜单中的新建脚本从- 。在名称字段中键入Shopping Site--initialize sessio
您可能关注的文档
- 客房部工作流程及标准化流程.doc
- 客户信息管理系统(实训报告).doc
- 客户资源管理系统数据库设计.doc
- 实验十一 ITAE最优控制系统设计.doc
- 室内分布系统技术规范.doc
- 室内装饰设计合同(标准)改.doc
- 室内分布系统故障分析的步骤和方法.doc
- 实验十 人类染色体G显带技术及G带核型分析.doc
- 室外给排水管道安装作业指导书.doc
- 家畜解剖学习题(南京农大动物医学).doc
- 《2025年公共卫生应急报告:AI疫情预测与资源调配模型》.docx
- 《再生金属行业2025年政策环境循环经济发展策略研究》.docx
- 2025年开源生态AI大模型技术创新与产业协同趋势.docx
- 《2025年智能汽车人机交互创新研究》.docx
- 2025年专利申请增长趋势下的知识产权保护机制创新分析报告.docx
- 《2025年数字藏品元宇宙技术发展趋势分析报告》.docx
- 2025年折叠屏技术迭代中AI功能集成市场反应量化分析报告.docx
- 《2025年教育培训视频化教学与会员学习服务》.docx
- 《2025年工业软件行业CAD国产化应用场景分析报告》.docx
- 《2025年生物制药行业趋势:单抗技术迭代与产业链自主可控规划》.docx
最近下载
- Audition实例教程(Audition CC 2019)全套PPT课件.pptx VIP
- 6.3 梯形的面积 课件 人教版 五年级数学上册.pptx VIP
- 2024-2025学年人教版(2024)小学信息技术六年级(全一册)知识点复习要点.docx VIP
- 污水管网 临电.docx
- 80万吨年渣油加氢项目可行性研究报告.docx
- 2025中国邮政集团有限公司贵州省分公司秋季招聘笔试备考试题及答案解析.docx VIP
- 广东省能源集团招聘笔试题库2025.pdf
- 临床常见病的中西医诊疗与康复新进展题库答案-2025年华医网继续教育答案.docx VIP
- 一种泥浆脉冲的快速编码方法.pdf VIP
- (完整版)西北工业大学航空学院结构力学课后题答案第二章结构的几何组成分析.docx VIP
原创力文档


文档评论(0)