免费网站申请 免学习建站 免费网站建设 免费建永久网站 江苏网站建设 第四维度-新采集示例(desiweb).docVIP

  • 5
  • 0
  • 约 7页
  • 2016-11-01 发布于贵州
  • 举报

免费网站申请 免学习建站 免费网站建设 免费建永久网站 江苏网站建设 第四维度-新采集示例(desiweb).doc

免费网站申请 免学习建站 免费网站建设 免费建永久网站 江苏网站建设 第四维度-新采集示例(desiweb)

新版采集示例 我们以新浪网环球新闻做个示例,用新的内容采集工具来采集新闻 页面地址: /news/gjxw/hqqw/index_1.shtml 所要采集的新闻页面最好是列表页, 例:页面上有显示上一页,1 2 3.。。。。。下一页 比如:第一页它的地址是:/news/gjxw/hqqw/index_1.shtml 单击第二页地址就是:/news/gjxw/hqqw/index_2.shtml 有一种规律性的延伸。 后台设置如下: 首先进入后台,单击“文章采集”,单击左侧的“规则设置NEWS”。 将采集的页面地址复制到【采集路径】中 将采集的页面地址复制到【路径参数】,将1 替换为{0} 采集页数自已填写数字 例如:1 页面编码 可鼠标右击查看页面源文件 查看到这个页面编码为gb2312,那么就在页面编码里输入“gb2312”,当然也有是utf-8的 比如: 所以根据采集的页面编码来输入。点击“下一步” 5、在这里我们可以看见这些采集的规则设置 “列表标签”就是整个新闻列表的标签,查看页面源文件,找到新闻条目,如图: 那么我们就可以定义“列表标签”为“//ul [@class=list_009]”,为什么是这样规则呢 因为设置的格式是这样的“//+标签的起始代码+[@+标签的属性]”,看到下面你就会明白了。 那么“详细页标题标签”就是:

文档评论(0)

1亿VIP精品文档

相关文档