- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络矿工采集器V2012SP1图文使用的教程
网络矿工采集器 V2012 SP1 使用教程 (图文版)
使用IE或Firefox浏览器,打开,进入下载频道,下载网络矿工V2012 SP1软件
注意:网络矿工的运行需要.Net Framework 2.0 环境,如果您的计算机中不具备此环境,请到下载-工具软件中下载。
网络矿工下载后是一个ZIP压缩文件
双击打开压缩文件,可以看到一个SoMinerV2012Sp1专业版目录,全部解压出来即可,解压完成后,在此目录中我们可以看到有三个exe文件,同时还可看到一个“第一次使用请先读我”的文本文件,如果第一次使用,可以查看这个文件。
Soukeynetget.Exe是网络矿工的主程序文件,双击启动即可打开网络矿工。
如果您是试用用户,启动后,系统会显示试用版,及剩余试用的期限,通常情况下试用期限为30天,试用版没有任何功能限制,所以不必担心。
我们以一个简单的配置例子,来介绍网络矿工的使用,采集某网站的新闻数据。
启动网络矿工,我们首先先建立一个“新闻”的分类用来存储将要配置的采集任务,建立分类的目的是便于管理。
建立分类:
在属性菜单中,点击鼠标右键,选择“添加采集分类”,系统弹出添加分类窗体,如下:
输入“新闻”点击确定退出,系统会自动建立新闻的分类
选中“新闻”分类,点击鼠标右键,选择“新建采集任务”开始添加采集任务
首先我们可以给此采集任务填写一个易记的采集名称“新闻采集”,
下一步我们开始添加要采集的网址信息,
采集网址为:/newssh/shwx/shehuiwanxiang.htm
采集的数据是从这个新闻列表页中,找到每一篇新闻,点击进入新闻的详细页,采集新闻的正文、发布时间、标题。
所以,这个采集网址是属于导航采集,入口地址为:/newssh/shwx/shehuiwanxiang.htm。
点击“增加采集网址”
选中“导航采集”,并点击“增加”配置导航规则,导航的目的就是让软件自动根据这个新闻列表页打开每一篇新闻。
所以配置规则为这个列表页的列表新闻信息,我们可以通过两种方式进行配置:可视化和采集规则配置
可视化配置导航规则
打开导航配置窗口后,点击“配置导航规则”,
打开配置页面,选择“可视化配置”,点击“可视化提取”按钮,
打开可视化配置器
输入网址/newssh/shwx/shehuiwanxiang.htm
打开网页,因为是一个新闻列表页,导航是多条数据,所以,需要选中“多条记录 请通过鼠标捕获第一条和最后一条记录”,然后点击工具栏“开始捕获”,鼠标在页面滑动式,会出现一个蓝色的边框,用蓝色的边框选中第一条新闻,点击,然后再选中最后一条新闻,点击,系统会自动捕获导航规则,如下:
确定退出即可。配置完成后,选中刚才配置的网址,点击“测试网址解析”,可以看到系统已经将需要采集的新闻地址解析出来了,表示我们配置正确。
刚才我们使用可视化方法进行的配置,也可以用规则配置进行导航规则的解析,在刚才的配置导航规则页中,选择“自定义配置”,在网页源码中,找到需要导航的网址,
荧光笔标出的就是前后标志,输入规则,确定退出。
然后,我们再进行导航规则测试,可以看到测试没有问题。
下面我们开始配置采集数据的规则,因为我们要采集新闻的正文、标题、发布时间,所以,可以用三种方式来完成:1、智能采集;2、可视化采集;3、规则配置。
我们逐个讲解
智能采集
我们在采集任务配置窗体中,选择“采集数据”,并点击“配置助手”,打开配置助手页,
在地址栏输入一个采集的地址,系统也会自动输入此网址,同时点击“生成文章采集规则”,可以看到系统已经将文章的智能规则输入到系统中,点击“测试”可以检查采集结果是否正确
确定退出,这样就完成了配置。
点击“应用”保存,测试采集,
可以看到采集没有问题,正文首先是张图片。如果需要去掉网页符号,可以编辑正文的数据加工规则,选择“输出时去掉网页符号”
再次测试
网页符号已经去掉,因为图片是一个网页代码,所以也被去掉了,一般情况下,采集正文我们期望保留格式,所以,不用去掉网页代码,这样可以保留文章原始格式进行输出。
下面我们来看可视化配置
我们在采集任务配置窗体中,选择“采集数据”,并点击“增加”,采集数据规则配置页,选择“可视化配置”,并点击“可视化提取”按钮,打开可视化配置页面
输入我们需要采集数据的网址,并点击匹配,开始进行采集数据的可视化配置,同样,点击“开始捕获”时,鼠标在网页滑动时会出现一个蓝色边框,用蓝色边框选中需要采集的数据,点击即可。
点击“测试”可以看到测试结果,测试结果正确后,确定退出,在采集数据规则配置页,输入一个名称,保存退出,即可
重复以上过程,将正文、时间、标题配置好即可。
可以看到规则类别为XPath
保存采集任务,测试即可。
下面我们来看第三种配置方法:规则配置
规则配置是最复
您可能关注的文档
- 编程中几个时间类型转化.docx
- 啤酒过量喝危害引起疾病多.docx
- 啤酒厂剖析化验室设计完整版1.doc
- 啤酒酵母自溶的原因和解决措施.doc
- 啰嗦学长写得东东.docx
- 缸体平面度检修方法.docx
- 缸顾的顾氏族谱和祠堂.docx
- 缺铁性贫血饮食注意事项.doc
- 喀喇沁旗中蒙医院中长期进展规划1.doc
- 罐区组织机构图和岗位职责.doc
- 9 《地下空间防水防渗技术在地下空间开发中的施工质量控制与验收标准研究》教学研究课题报告.docx
- 高中物理:区块链技术在高中物理实验数据溯源与教学策略推广研究教学研究课题报告.docx
- 2025年教育硕士试题预测试卷带答案详解.docx
- 小学心理剧课程在促进教师心理健康教育中的应用研究教学研究课题报告.docx
- 《供应链金融信用风险评估模型的构建与实证研究——基于大数据技术》教学研究课题报告.docx
- 《智能交通系统在城市拥堵治理中的交通拥堵治理效果监测与评估技术创新研究》教学研究课题报告.docx
- 2.《孔雀东南飞》课件 第二课时统编版高二语文选择性必修下册.pptx
- 2025年教育硕士试题预测试卷含完整答案详解(典优).docx
- 2025年教育硕士试题预测试卷及答案详解(基础+提升).docx
- 2025年教育硕士试题预测试卷及答案详解(基础+提升).docx
最近下载
- 2025年台湾AI行销趋势报告(繁体版)-Kolr.docx VIP
- 湖北办公楼监控及电子围栏系统施工组织设计.doc VIP
- 围栏(施工组织设计围栏(施工组织设计).doc VIP
- 2024年台湾YouTube年度社群内容趋势报告(繁体版)-Kolr.pptx VIP
- 诺尔起重设备(中国)有限公司RTG&RMG中国福建招商局漳州开发区363105.pdf VIP
- 小区沥青道路设计做法.doc VIP
- 2025年台湾AI行销趋势报告(繁体版)-Kolr.pdf VIP
- 防雷安全知识试题及答案.doc VIP
- 智能体协议:MCP、A2A、ANP-智能体互联网的黎明之前.docx
- 国有企业收购合同协议.docx VIP
文档评论(0)