dedecms织梦采集功能的使用方法(二)我是程序员.docxVIP

  • 3
  • 0
  • 约2.62千字
  • 约 5页
  • 2021-04-13 发布于天津
  • 举报

dedecms织梦采集功能的使用方法(二)我是程序员.docx

dedecms 织梦采集功能的使用方法(二) 我是程序员 Dedecms 采集功能的使用方法 — 不含分页的普通文章 2.1 新增采集节点:第二步设置内容字段获取规则 单击“保存信息并进入下一步设置”后,便可进入“新增采 集节点:第二步设置内容字段获取规则”页面,如(图22 集节点:第二步设置内容字段获取规则”页面,如(图 22) 所示, 图 22- 设置内容字段获取规则 在预览网址处,系统将会自动指定一篇将被采集文章内容页 面的网址(一般为所采集列表页面的第一篇文章网址),作 面的网址(一般为所采集列表页面的第一篇文章网址) ,作 为示范页面。如果文章内容页面含有分页,则需设置“内容 分页导航所在的区域匹配规则”对于“固定采集项目”中的“内容摘要、关键字和缩略图“三个部分,系统会用正则进行自动匹配,这里仅需配置过滤内容即可。面主要介绍如何获取“文章标题、文章作者、文章来源、发布时间和文 分页导航所在的区域匹配规则” 对于“固定采集项目”中 的“内容摘要、关键字和缩略图“三个部分, 系统会用正则 进行自动匹配,这里仅需配置过滤内容即可。 面主要介绍 如何获取“文章标题、文章作者、文章来源、 发布时间和文 章内容”的采集规则,过滤规则仅简单涉及。 2.1.1 获取文章标题的采集规则 首先,打开“预览网址“的页面并单击右键,选择”查看源 首先,打开“预览网址“的页面并单击右键, 选择”查看源 代码“,找到文章标题” 在 Dreamweaver 中为插入的 Flash 添加透明“,如(图 23)所示, 图 23- 在源代码中的文章标题 这里的文章标题处在” lt;h1gt;lt;/h1gt; ”之间,由于在 此页面中多次出现这组标签,因此这里应该填写“ lt;div class=”arcbody”gt;lt;h1gt;[ 内容 ]lt;/h1gt; ”作为文章 标题的匹配规则。如果在文章标题中含有相关链接等,可使 用过滤规则加以处理,这里无需设置。填写后,如图24 用过滤规则加以处理,这里无需设置。填写后,如图 24所 示, 图 24- 文章标题的采集规则 2.1.2 获取文章作者的采集规则 如上图 23 所示,在“作者: ”二字后面有一组标签“ lt;font color=” red” gt;lt;/fontgt; ”,以此猜测,作者名将会写 在这组标签之间。同样,为了保持唯一性,这里应填写”作 者:Itfont color= “ red” gt;[内容]lt;/fontgt; “作为文章 作者的采集规则。谨慎起见,请根据文章列表中其他文章内 容页面查证此采集规则是否正确。这里不需要使用过滤规 则。填写后,如图 25 所示, 图 25- 文章作者的采集规则 2.1.3 获取文章来源的采集规则 图 26- 文章来源的采集规则 2.1.4 获取文章发布时间的采集规则 再次回到图 23,找到“发表于:”及其后的“ lt;font color= ” red”gt;2009-09-29 14:21lt;/fontgt; ”,与之前获取采集规 则方法相同, 此处应把“发表于: lt;font color= ”red”gt;[ 内 容]lt;/fontgt; ”作为发布时间的采集规则。同样,这里也 不需要使用过滤规则。填写后,如图 27 所示, 图 27- 文章发布时间的采集规则 2.1.5 获取文章内容的采集规则 这个部分是编写采集规则的重点, 也是难点。 需要特别注意 具体操作步骤: (a)回到正在打开的文章内容页面的源代码, 找到文章内容 的开始部分“ Dreamweaver 升级到 8.0.2 后”,如图 28 所示, 图 28- 文章内容的开始部分 注意:在源代码中,有两处都出现了这句话。其中,第一句 在“ lt;div class= ” intro ” gt; ”之后,第二句在“ lt;div class= ” content” gt;lt;pgt; ”之后。通过对比文章内容页面及其 源代码,不难发现,第一处实为摘要,第二处才为文章内容 的开始部分。因此,应选取“ lt;div class= ” content” gt; ” 为匹配规则的开始部分。 (b)找到文章内容的结束部分“同样是添加值为“ trans parent” 的“ wmode ”参数。”,如图 29 所示, 图 29- 文章内容的结束部分 注意:由于结束部分的最后标签为” lt;/pgt; ”,而此标签 在文章内容中多次出现。因此,不能作为采集规则的结束标 签。考虑到应与文章内容的开始部分相对应,经对比和分析 后得出,此处应选取“ lt;/divgt; ”作为文章内容的结束部 分,如图 30 所示, 图 30- 文章内容匹配规则的结束部分 (c)综合(a)和(b)可

文档评论(0)

1亿VIP精品文档

相关文档