1-图文网站.ppt.pptVIP

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1-图文网站.ppt

* 前台浏览看采集到信息是否正常显示 * 采集过来的某一条信息 * 栏目图片的设置 栏目logo图的设置 栏目坐标的设置 栏目属性的设置 * 网站信息管理 此模块提供了对采集信息进行人工管理的功能,维护人员可以对信息进行手动的添加、修改、删除等操作。 * 点击信息管理,显示出当前所有的网站名称的列表,界面如下: 点击所要修改的网站名称 * 找到所要修改的网站,点击进入栏目结构列表,界面如下: 点击所要修改的栏目名称 * 点击需要修改信息的栏目,进入此栏目的信息列表,如下图,点击右侧的“修改” 点击修改进入修改信息页面 * 修改信息,修改完成后点击下方的修改按钮,修改成功。 * 同样,点击需要修改信息的栏目,进入此栏目的信息列表,如下图,点击右侧的“添加信息”和“删除”可以进行相应的添加信息以及删除信息的操作。 点击添加信息可添加新信息 点击删除可删除不需要信息 * 添加信息--星号为必填内容 * Thank you ! * 图 文 网 站 * 图 文 组 织 结 构 图 互联网资源 策划自己的网站结构和栏目 建立自己的网站栏目和采集网站的栏目,并确定对应关系 网站数据库 采集程序处理 根据叶面属性过滤后提交数据库 分析该网站的各个栏目的叶面属性 抓取的图文信息在线 * 图文网站的功能介绍 * 图文网站系统主要功能是将网络上各种图文资源进行自动采集,并自动转换为机顶盒浏览模式。主要包括三个部分:信息采集管理系统、信息采集程序、用户界面。 * 信息集管理系统主要负责对采集的资源进行配置,对采集后的信息进行整理,以及对用户界面进行设置。 信息采集程序依据信息采集管理系统配置的采集信息,从指定的网站获取某些栏目的内容,然后按照信息分类写入用户数据库。 用户界面则把这些内容转换成通过机顶盒能够显示的形式,生成静态页面,供系统用户浏览。 * 图文网站的站点选取 及栏目结构的确定 * 我们要想将网络上的资源为我所用,首先需要确定源网站(就是采集来源),这个源网站的确定就是由我们的需求决定的(策划)。由于新华网的新闻的及时准确,我们可以把它作为我们图文网站的新闻类的一个站点。我们下面以新华网为例,详细讲解如何制作一个自动的图文采集网站。 * 首先登陆后台管理系统 * 登陆后可以看到后台管理界面 * 首先,进入栏目管理,根据之前策划的新华网的栏目结构制定出如图的栏目 单击添加栏目 * 然后进行自动采集管理--采集网站管理,进行采集属性的配置 采集网站的修改及删除 单击添加网站 * 采集网站(源网站)的添加 填入采集网站的名称、域名及其描述。便于采集多个网站的时候,明显的区别不同的采集网站 * 采集栏目的添加 单击网站的名称,添加栏目 * 采集栏目的修改和删除 采集栏目的添加 * 采集URL及采集路径的配置 栏目名称和采集栏目URL填写完毕后单击添加按钮 * 页面属性管理--页面属性的配置 * 如何分析页面属性 打开一个预分析的页面,点击浏览器菜单:查看-源文件(或在页面上空白处:点击右键-查看源文件)即可看到一个记事本打开的HTML页面源文件,我们以下的配置操作都基于对此源文件的分析。 在配置前要先分析并获取栏目的页面属性,所谓的页面属性就是程序在网页中赖以查找标题、作者、正文等内容的关键字,关键字成对出现,处于内容的前后。 * 分析一个栏目的页面属性, 要注意如下事项: 标题前面的关键字必须在标题前面,标题后面的关键字必须在标题后面,日期、作者、正文都是这样。 找到的关键字在一个栏目大部分的网页中都应该存在,即这个关键字是一个通用的规律。 * 找到的关键字不一定在所有的网页中都存在,比如栏目比较混乱复杂的情况下,在大部分网页中存在即可,这样在自动抓取的时候只抓取符合的网页,会漏掉一部分不符合的网页。 标题前面以及后面的关键字不一定是紧挨着标题的,但要保证关键字在全文中的唯一性,即使有重复,也应该保证标题前面的关键字是第一个,日期、作者、正文前面的关键字都是这样。 * 标题前面以及后面的关键字和标题之间的内容,“”必须配对,不允许出现单独的“”或“”没有配对的情况,日期、作者、正文前面的关键字都要这样。 标有红色星号的项目为必填项,如不填写,不能进行添加,如果不填写正文后面的关键字,系统会报500错误。 * 栏目对应关系管理--设置栏目对应关系 * 栏目对应关系即所建网站的栏目与采集栏目的关联。其主要目的是为了灵活的对所采集到网站内容进行组合显示,以便于在相应的栏目显示出对应采集栏目所采集到的内容。 首先列出各个栏目的栏目名称、子栏目数、对应的采集栏目及修改操作。如果子栏目数为0则需设置本栏目对应关系,如果子栏目数不为零,则进入子栏目列表对其子栏目定义对应关系。 * 点击需要修改的网站:进

文档评论(0)

75986597 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档