网站大量收购独家精品文档,联系QQ:2885784924

信息采集说明.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息采集说明

信息采集使用手册 摘要 信息采集是一个抓取网络数据,实现信息共享的功能模块。它提供手动抓取、预约抓取和定时循环抓取三种模式,它可以抓取单个新闻列表下的信息,也可以同时抓取多个列表下的新闻信息。 步骤及详细 现在需要将一个网页的数据(新闻)采集到webplus系统一个指定的栏目下,步骤如下: 给指定栏目制定一个采集计划。 在栏目管理中选择该栏目,点击设置采集计划。(如:图一) 设置采集的基本属性。 包括执行方式,信息是否自动发布,被采集的栏目类型和页面的编码格式。(如:图二) 事先约定好该采集计划的执行方式,手动、定时单次还是定时循环执行。 如果仅仅为了采集网页当前的数据,我们可以采用手动和定时单次的方式采集一次即可;如果被采集网页的数据会更新,而我们又要保证信息的同步,即采用定时循环采集的方式。 判断采集过来的信息是否需要发布 如果采集过来的信息不需要修改,可以直接对外网公开,选择自动发布即可。如果采集过来的信息,需要修改,审核等,选择不要自动发布,等采集完成以后,由信息管理人员来进行其他操作。 设置被采集的栏目类型 如果被采集的网页中只是单纯的一个新闻列表,即是将该页面的新闻采集到指定栏目下,那么选择单栏目即可。如果被采集的页面有多个新闻列表,并且各自提供单独链接进入自己的新闻列表页面,而我们又需要采集所有的新闻信息,那么选择多栏目。另外,如果采集的页面是RSS信息聚合页面,那么设置为相应的RSS单栏目或RSS多栏目。 设置被采集页面的编码 由于webplus系统采用的是UTF-8的编码格式,而被采集可能是其他的编码格式,那么为了避免采集过来的信息乱码,这里需要设置为被采集页面的编码格式。 设置采集计划的采集规则 单栏目采集计划的设置 (如:图三) 设置“列表页起始URL” 即是被采集页面的访问路径。(必须) 设置“文章页URL获取规则” 如果新闻列表是以一个iframe形式嵌入在被采集网页中,那么需要设置规则来获取列表iframe的链接地址,从而来访问新闻列表。否则不需要制定该规则。(具体规则方式请参见下面的“采集规则表达式制定”) 如果被采集网页的新闻列表存在分页的情况,那么根据新闻列表分页的方式(链接和表单提交)制定分页的规则,并且需要设置分页开始页码,间隔页码和采集页数。如果新闻列表不存在分页,即不需要制定该规则。 如果被采集的页面有多个新闻列表,并且多处新闻列表的url规则类似,而我们只需要采集指定的一处列表,即需要设置限制文章列表的获取规则,这是为了避免采集多余的数据。否则不需要设置该规则。 设置文章url的获取规则,为了从采集页面中能够访问具体的新闻页面,从而进行新闻采集。(必须) 设置“文章内容获取规则” 具体的新闻页面,如果文章内容是以iframe的形式嵌入在该新闻页面中,那么需要设置规则来获取文章iframe的链接地址,从而来访问新闻内容。否则不需要制定该规则。 如果新闻了内容存在分页的情况,那么根据文章内容分页的方式(链接和表单提交)来制定分页的规则,并且需要设置分页开始页码,间隔页码和采集页数。如果文章内容不存在分页,即不需要制定该规则。 如果新闻页面中,除了新闻内容外,还有其他的附加信息,那么在采集过程中为了更容易找到新闻内容,这里需要设置限制新闻内容的获取规则。一是为了避免产生垃圾信息,二是为了减轻了新闻具体信息获取规则的复杂度。如果新闻页面比较简单,一般该规则不需要设置。 新闻属性的设置规则,除了标题和内容外,其他都是非必须条件,另外新闻的发布时间不设置的话,会采用当前的时间作为发布时间。 多栏目采集计划的设置 (如:图五) 多栏目采集计划除了需要在“列表页起始URL”下设置列表页URL规则和“文章页URL获取规则”下设置栏目名称的获取规则,其他与单栏目采集计划设置一致。 RSS单栏目采集计划的设置 (如:图四) RSS单栏目的采集计划不需要设置“文章页URL获取规则”,其他与单栏目采集计划一致。 RSS多栏目采集计划的设置 (如:图六) RSS多栏目的采集计划需要在“列表页起始URL”下设置列表页URL获取规则,其他与RSS单栏目采集计划一致。 采集规则表达式制定 表达式设置和调整,以及对表达式列表进行测试 点击采集页面中某一处“获取规则设置”,进入规则表达式列表页面(如:图七)。在该页面中除了可以对表达式进行增加,修改,删除和调整顺序外,还可以在表达式设置完成后,输入url,iframeurl和页面内容,对表达式规则列表进行测试。 设置各种类型表达式的类型 表达式类型分为字符串,匹配,匹配替换和公式四种类型。其中匹配和匹配替换需要用到java的正值表达式,这要求采集计划设置人员对表达式有一定的了解。 字符串:直接输入的字符串常量 匹配:从指定的文本(URL、IframeURL、页面内容)中通

文档评论(0)

zhuwo + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档