- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如何设置采集规则.doc
信息采集管理系统的作用:
能帮忙企业在信息采集,资源整合方面节约大量的人力与资金。广泛应用于行业门户网站,竞争情报系统,知识管理系统,网站内容系统,垂直搜索,科研等领域。
今天我们这节以采集腾讯网站的各地新闻列表为例,一步步教您如何来运用采集系统,如何设置采集规则。
点击内容管理--信息采集管理,如下图:
点击“新建项目”,所属模型选择文章 ,所属栏目即您要采集的信息是要放到哪个栏目下,我们选择国内新闻栏目,如下图:
点击“下一步”进入设置列表索引和开始结束标记,如下图:
这时我们要打开采集的信息页面第一页,并将网址复制粘贴到列表索引页面:/newsgn/gdxw/gedixinwen.htm
下面的标记需要我们查看网页生成的源代码,如下图:
搜索找到”各地新闻”,注意观察,我们发现各地新闻的信息列表,在分页下边找到列表开始标记:div class=mod newslist再到底部分页上找列表结束标记:
填好后再点击“下一步”按钮继续我们的采集任务,然后找链接开始和结束标记,如下图:
我们看到列表截取测试中我们已经成功截取了一些信息列表。还是查看刚才的源代码去找,如下图:
我们看到链接开始是:
a target=_blank href=
结束是:
填上后,如下图:
点击“下一步”继续设置文章简短标题标记,如下图:
此时,我们 看到”上一步”“下一步”按钮下方有分析列表链接测试,我们可以试试是否链接是正确的。如下图:
接下来,我们就打开一篇文章查看其源代码,如下图:
搜索文章标题,然后找到代码,如下图:
将h1/h1填到简短标题开始和结束标记中,下面再找到文章内容开始和结束标记,如下图:
将标题开始结束标记填上,并找出文章内容的开始和结束标记填上,如下图:
此时如果是提示截取列表错误,那么您可能是没有找到惟一性,需要继续测试。我们如果前面设置的没有问题那么继续点击“下一步”,如下图:
看到上面这个界面,欢呼吧,我们采集成功了。继续点击“下一步”作一些相关的采集设置。如果我们需要采集的文章中有图片的让它自动转为图片文章则勾选,如下图:
点击“完成”按钮,设置采集规则完成了。如下图:
点击“确定”按钮返回到采集管理首页,如下图:
此时,您只需点击“采集”链接进行采集信息了。
上面我们介绍的是只采集信息列表一页的情况,那么如果我们需要采集的信息数比较多页,我们就返回来观察一下信息列表页的生成规则,如下图:
鼠标移到2显示的是/newsgn/gdxw/gedixinwen_2.htm
那么我们可根据他的这种生成规则编辑一下我们的采集项目到这步的时候选择批量生成,并将网址复制粘贴进去,将页数改为{$ID},生成范围填上数字,比如需要采集前8页,我们就填2-8,如下图:
设置好,我们像上面设置一下点击”下一步”, ”下一步”按钮直到设置完毕。
返回到采集管理首页,点击“采集”链接,如下图:
然后系统进入开始采集界面,如下图:
这里注意一点,采集的时候请勿刷新这个页面。
采集完成系统会自动统计共采集多少篇,成功几篇,失败几篇,图片有几张。
我们点击“审核入库”按钮进入进入可查看我们成功采集的文章,可以进入批量选择将文章进行入库,如下图:
如果所有的文章都要进行入库,则点击“全部入库”按钮,如下图:
点击“确定”按钮。我们回到文章系统中,看到文章都被成功入库了,如下图:
我们返回到信息采集管理中,看到“历史记录”按钮,点击后可以将所有采集的历史记录清空掉,如下图:
=======================完=======================
本教程只是一个举例,在采集的过程中,因为每个站点生成规则不同,所以会经常碰上截取列表错误之类的问题,我们大家要不气馁,多试几次,胜利属于努力的人们
您可能关注的文档
最近下载
- 第11课整理信息资源 教案 义务教育版信息科技三年级全一册.pdf VIP
- 中国变电站综合自动化系统行业市场占有率及投资前景预测分析报告.docx
- 实施指南《GB_T19164-2021饲料原料鱼粉》实施指南.docx VIP
- 第8课浏览网络资源 教案 义务教育版信息科技三年级全一册.doc VIP
- 2024年秋季高一入学分班考试模拟卷(通用版)地理试卷含答案.docx VIP
- 船舶辅助机械与船舶设备 .pptx VIP
- 消瘰疬胶囊治疗良性甲状腺结节(痰瘀互结证)的临床疗效观察.docx VIP
- 预包装食品标签培训材料.ppt VIP
- 异常子宫出血诊断与治理指南解读PPT课件.ppt
- 九年级上册数学二次函数知识点.pdf VIP
文档评论(0)