免费网站申请免学习建站免费网站建设免费建永久网站江苏网站建设第四维度-新采集示例(desiweb).docVIP

下载本文档

5
0
约 7页
2016-11-01 发布于贵州
举报

免费网站申请免学习建站免费网站建设免费建永久网站江苏网站建设第四维度-新采集示例(desiweb).doc

免费网站申请免学习建站免费网站建设免费建永久网站江苏网站建设第四维度-新采集示例(desiweb)

新版采集示例我们以新浪网环球新闻做个示例，用新的内容采集工具来采集新闻页面地址： /news/gjxw/hqqw/index_1.shtml 所要采集的新闻页面最好是列表页，例：页面上有显示上一页，1 2 3.。。。。。下一页比如：第一页它的地址是：/news/gjxw/hqqw/index_1.shtml 单击第二页地址就是：/news/gjxw/hqqw/index_2.shtml 有一种规律性的延伸。后台设置如下：首先进入后台，单击“文章采集”，单击左侧的“规则设置NEWS”。将采集的页面地址复制到【采集路径】中将采集的页面地址复制到【路径参数】，将1 替换为{0} 采集页数自已填写数字例如：1 页面编码可鼠标右击查看页面源文件查看到这个页面编码为gb2312，那么就在页面编码里输入“gb2312”，当然也有是utf-8的比如：所以根据采集的页面编码来输入。点击“下一步” 5、在这里我们可以看见这些采集的规则设置 “列表标签”就是整个新闻列表的标签，查看页面源文件，找到新闻条目，如图：那么我们就可以定义“列表标签”为“//ul [@class=list_009]”，为什么是这样规则呢因为设置的格式是这样的“//+标签的起始代码+[@+标签的属性]”，看到下面你就会明白了。那么“详细页标题标签”就是：

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

免费网站申请免学习建站免费网站建设免费建永久网站江苏网站建设第四维度-新采集示例(desiweb).docVIP