- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
小蜜蜂采集器使用指南 - 文章采集器使用指南
小蜜蜂采集器文章采集器使用指南
一:建立站点和栏目
1:点击添加站点按钮出现如下页面
可以根据提示设立网站名称和网站归属栏目名称。
注:必须要先设置网站后才能设置栏目名称。并在设置栏目名称后选择网站,以便确立栏目的归属。
配置完成站点和栏目后出现如下页面
注:一个站点下可以有添加多个栏目
二:建立采集规则
1:为栏目添加规则
当你是第一次为新建立的站点添加规则时,请一定要点选站点列表栏目中的“添加规则”按钮。如下图:
点击后,我们可以选择为站点中的哪个栏目进行规则添加
2:规则编写
这里我们要着重说明,如何添加采集规则并详细说明如何编写规则。
以下的讲解将以一实际网站为例进行。
2.1 如何编写URL规则
我们以如下的链接地址为例:/tech/web/index.asp
出现如下页面
我们来分析这条URL的页面:
第一页的URL为 /tech/web/index.asp
第二页的URL 为 /tech/web/index_2.asp
第三页的URL 为 /tech/web/index_3.asp
这里我们可以看出除第1页外,起它页URL 都是有规律的在进行变化。因此我在URL链接区域填入下列内容
我们可以看见在“有规律的URL”里我们是采用了这样的的链接内容
/tech/web/index_[variable].asp
而实际的分页URL是这样的
/tech/web/index_3.asp
在这里我们用[variable]【变量】取代了数字【2】【3】,而在参数区填写了【2】,【9】。
至此我们完成了URL的添加。
2.2如何编写“链接”规则。
在上一步我们完成了URL的编写,使采集器知道哪些页面URL是要去进行采集的;但要软件知道具体要采集哪些内容,我们就要编辑“链接”规则。
首先确定哪些链接是我们要采集的:
在当前页我们按“F7”,或点选IE中的“查看”-“源文件”按钮,打开记事本查看当前页的HTML源代码文件。查找到特定代码区域,如下图:
我们可以发现这些代码都是有规律的,依据规律提取如下
img src=/img/icon/arrow.gif width=4 height=13
a href=/tech/web/2005/2815.aspDW8代码工具栏试用/a/td
对以上代码我们做如下编写
img src=/img/icon/arrow.gif width=4 height=13
a href=[link][title]/a/td
以上我们用[link]【链接】标签替换了“/tech/web/2005/2815.asp”,用[title]【标题】标签替换了“DW8代码工具栏试用”。
编辑“链接”规则做完后,选择“提交”按钮后点击“采集测试”按钮,以测试规则是否配置正确。
如配置正确会出现如下页面:
这表明前几步的配置是完全正确的,现可以进行实际文章内容的采集配置了。
2.3 如何配置文章内容的采集
在链接中选取一个页面打开,为有针对性的演示内容配置中的特殊用法,这里选取的链接地址为“实现一个日期下拉菜单/tech/web/2006/3169.asp)。
在当前页我们按“F7”,或点选IE中的“查看”-“源文件”按钮,打开记事本查看当前页的HTML源代码文件。
2.3.1 配置文章内容的“标题”栏。
在已打开的源代码文件中,查找包含标题的特定HTML代码,找到代码如下:
title蓝色理想 - 实现一个日期下拉菜单/title
因为我们需要的标题内容是“实现一个日期下拉菜单”,这里我们用[title]【标题】标签放到需要的内容处,替换该代码如下:
2.3.2配置文章内容的“内容”栏
查找到包含内容的特定源码区域
table width=100% border=0 cellspacing=11 cellpadding=0 class=pageLighter
tr
td class=content
P这篇文章的主旨是弄清楚如何根………………………. 使用JavaScript的Date对象时要特别注意这一点。/P
p align=right出处
这里我们要选择包含内容源码的开始特征码和结束特征码,通过分析我们选择配置如下
这里我们使用了[content]【内容】标签替换了内容页的全部代码。实际代码如下
tr
td class=content[content]p align=right出处
2.3.3配置文章内容“内容分页”
在该链接中,完整的文章是分成为三个页面构成的。“内容分页”一般有两种表现形式,1:全部列出形式,2:上下页形式。我们对两种形式的编码配置进行演示
A:全部列出形式
HTML源代码如下
p class=listimg
文档评论(0)