网络矿工采集器V2012SP1图文使用教程.docVIP

下载本文档

1
0
约1.88千字
约 12页
2025-09-25 发布于江苏
举报
版权申诉

网络矿工采集器V2012SP1图文使用教程.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网络矿工采集器V2012SP1使用教程（图文版）

使用IE或Firefox浏览器，打开，进入下载频道，下载网络矿工V2012SP1软件

注意：网络矿工的运行需要.NetFramework2.0环境，如果您的计算机中不具备此环境，请到下载-工具软件中下载。

网络矿工下载后是一个ZIP压缩文件

双击打开压缩文件，可以看到一个SoMinerV2012Sp1专业版目录，全部解压出来即可，解压完成后，在此目录中我们可以看到有三个exe文件，同时还可看到一个“第一次使用请先读我”的文本文件，如果第一次使用，可以查看这个文件。

Soukeynetget.Exe是网络矿工的主程序文件，双击启动即可打开网络矿工。

如果您是试用用户，启动后，系统会显示试用版，及剩余试用的期限，通常情况下试用期限为30天，试用版没有任何功能限制，所以不必担心。

我们以一个简单的配置例子，来介绍网络矿工的使用，采集某网站的新闻数据。

启动网络矿工，我们首先先建立一个“新闻”的分类用来存储将要配置的采集任务，建立分类的目的是便于管理。

建立分类：

在属性菜单中，点击鼠标右键，选择“添加采集分类”，系统弹出添加分类窗体，如下：

输入“新闻”点击确定退出，系统会自动建立新闻的分类

选中“新闻”分类，点击鼠标右键，选择“新建采集任务”开始添加采集任务

首先我们可以给此采集任务填写一个易记的采集名称“新闻采集”，

下一步我们开始添加要采集的网址信息，

采集网址为：/newssh/shwx/shehuiwanxiang.htm

采集的数据是从这个新闻列表页中，找到每一篇新闻，点击进入新闻的详细页，采集新闻的

置导航规则页中，选择“自定义配置”，在网页源码中，找到需要导航的网址，

荧光笔标出的就是前后标志，输入规则，确定退出。

然后，我们再进行导航规则测试，可以看到测试没有问题。

下面我们开始配置采集数据的规则，因为我们要采集新闻的正文、标题、发布时间，所以，可以用三种方式来完成：1、智能采集；2、可视化采集；3、规则配置。

我们逐个讲解

智能采集

我们在采集任务配置窗体中，选择“采集数据”，并点击“配置助手”，打开配置助手页，

在地址栏输入一个采集的地址，系统也会自动输入此网址，同时点击“生成文章采集规则”，可以看到系统已经将文章的智能规则输入到系统中，点击“测试”可以检查采集结果是否正确

确定退出，这样就完成了配置。

点击“应用”保存，测试采集，

可以看到采集没有问题，正文首先是张图片。如果需要去掉网页符号，可以编辑正文的数据加工规则，选择“输出时去掉网页符号”

再次测试

网页符号已经去掉，因为图片是一个网页代码，所以也被去掉了，一般情况下，采集正文我们期望保留格式，所以，不用去掉网页代码，这样可以保留文章原始格式进行输出。

下面我们来看可视化配置

我们在采集任务配置窗体中，选择“采集数据”，并点击“增加”，采集数据规则配置页，选择“可视化配置”，并点击“可视化提取”按钮，打开可视化配置页面

输入我们需要采集数据的网址，并点击匹配，开始进行采集数据的可视化配置，同样，点击“开始捕获”时，鼠标在网页滑动时会出现一个蓝色边框，用蓝色边框选中需要采集的数据，点击即可。

点击“测试”可以看到测试结果，测试结果正确后，确定退出，在采集数据规则配置页，输入一个名称，保存退出，即可

重复以上过程，将正文、时间、标题配置好即可。

可以看到规则类别为XPath

保存采集任务，测试即可。

下面我们来看第三种配置方法：规则配置

规则配置是最复杂的，但也是最灵活的，需要在网页源码中找到前后标志，进行配置

首先先打开需要采集数据的网页源码，采集任务配置窗体中，选择“采集数据”，并点击“增加”，采集数据规则配置页

在“起始位置”和“终止位置”输入在网页源码中找到的定位符即可

逐一配置

规则类别为：Normal

测试采集

至此，我们这个采集任务就讲解完成。

这个采集配置是比较简单的，但针对这个采集任务配置，我们讲解了自动化分析、可视化配置和规则配置三种配置方法，在大部分情况下，可视化配置可以完成规则的配置，而不需要规则配置，但规则配置最为灵活，采集效率最高，但难度也最大。自动化分析当前只针对一些模板数据进行自动提取，譬如：文章、表格，后期还会扩展模板页面。

配置助手可以实现规则配置的简化，不仅支持自动化分析，还支持规则自动生成，大家可以试试。

您可能关注的文档

文档评论（0）

135****8227 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

网络矿工采集器V2012SP1图文使用教程.docVIP