火车采集器小教程.doc

下载文档 降价啦

1
0
约小于1千字
约 20页
2018-03-17 发布于河南
举报
版权申诉
保障服务

火车采集器小教程.doc

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

火车采集器小教程

火车采集器小教程黑咯咯华丽的小张琴出品不说废话了，好累，上图上真相第一步，添加站点第二步，添加任务第三步采集网址规则打开阿里巴巴的网站下面要填文章内容页面必须包含的东西打开两个内容页面，比较一下网址：这俩页面网址： /athena/contact/nhsin.html /athena/contact/yjqineng.html 找到里面一样的部分contact 很多小盆友问，为什么只取这一点点？我们再看其他网页比较三个网址： /athena/contact/nhsin.html /athena/contact/yjqineng.html /athena/companyprofile/fsicon.html 第三个是公司介绍的网页，发现，联系方式有的，公司介绍没有的就是contact，所以用contact 不过其实多一点问题也不大，自己用的是很试试看就可以了。测试第三步，采集内容规则设置把原有标签全部删掉后，点添加标签。打开典型页面打开源文件添加标签页面下面我们添加企业名称这个标签在源文件里找到这个企业的企业名称。再示范一个电话号码测试一下然后回到第一步采集网址规则，再测试一下，随便双击一个网址，测试一下内容是否能采集没有问题，就点保存（或者是更新按钮）。反正都是在这个位置可以开始采集数据了第四步，数据采集采好的数据在access数据库里，没装的童鞋要装哦~~~ 把这些数据直接复制到Excel就可以了这是采完了第一页，要采以后的怎么办呢？打开网页，找到第二页第三页对比网址 /company/%E6%B0%B4%E9%BE%99%E5%A4%B4/2.html /company/%E6%B0%B4%E9%BE%99%E5%A4%B4/3.html 变化就在最后面的数字，所以把最后的数字变成*（传说中的通配符）更新之后就可以开始继续采数据了另注：关于全局设置问题，参见自带help.chm文件