- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
采集,页面监控采集使用方法
无需编写采集规则根据关键词采集是织梦采集侠的特色功能,该功能给需要快速获取关键词相关内容,对可读性要求不高的用户带来了很多大方便,如做站群、淘宝客、流量跳转等用户。可以通过《织梦采集侠智能泛采集技术解析》这篇文章对根据关键词采集进一步了解。
??????因为根据关键采集是通过搜索引擎进行搜索采集该关键词的搜索结果的,对于采集回来的内容有不确定性,对可读性要求高,或者需要指定网站采集的用户,还是有点不尽人意。
??????为了能让用户更加方便的进行采集,有多种采集方式可以选择,在新版织梦采集侠V2.2中我们加入了RSS采集/页面监控采集这两项新的采集方式,这两项新功能也是我们对定向采集的一项新探索,虽然写规则可以定向采集,但我们一向都是从提高效率出发,降低采集的门槛,无需编写过多的采集规则,便能很好的采集到相关内容。
??????织梦采集侠v2.2正式版发布 加入指定站点采集功能??????织梦采集侠V2.0系列新版功能介绍:/?p=1940??????织梦采集侠后台界面预览:/?p=1928
??????RSS采集设置方法
??????RSS采集是织梦采集侠自动监控RSS地址进行文章采集的一种方法,RSS采集能通过RSS源很方便的采集到由RSS源提供的文章数据,和一些RSS工具获取网站最新更新一样。
??????一些开源的CMS或者一些用户较多的建站程序,如织梦CMS或者WordPress都会提供RSS数据源。只要有RSS地址的网站,都可以用RSS采集的方式进行采集。
??????(1)怎么获取网站的RSS地址?
??????一般可以通过观察网站的首页来查找RSS、订阅等链接。如的在网站的右上角有个“RSS订阅”的链接,通过点击这个链接看到“RSS订阅地图” /plus/rssmap.html,如下图:
??????上面这个地址并不是最终的RSS订阅地址页面,而是RSS订阅链接的一个地图而已,下面的“站长新闻”、“访谈”和“经验心得”等才是真正的RSS订阅地址,admin5提供的是每个栏目有单独的RSS订阅地址,通过不同的栏目RSS订阅地址订阅不同的栏目。
??????我们点开“站长新闻”,URL是:/plus/rss/177.xml,看到的是下图的这个页面(不同的浏览器浏览效果各不一样),该URL才是该栏目的RSS订阅地址。
??????如果页面上查看不到RSS相关的链接或者按钮,可以通过浏览网站源码的方式查找RSS地址,如查看织梦管理员之家的首页源码,红色加粗的下划线便是织梦管理员之家的RSS地址了。
??????(2)如何设置通过RSS地址进行采集?
??????安装好插件后,进入织梦CMS后台,点击模块,点击织梦采集侠的功能菜单“采集任务”,便会看到列出来的文章模型栏目,在相应栏目的那一段,点击采集关键词“[设置]”。
??????在RSS地址里面输入获取到的RSS地址,admin5的“站长新闻”栏目的RSS url是:/plus/rss/177.xml,织梦管理员之家的RSS url是:/?feed=rss2,输入RSS地址后点击“添加”,如下图,再点击保存即可。
??????页面监控采集设置方法
??????页面监控采集只需要设置监控页面,和文章URL规则即可获得被采集的URL地址,采集该URL里面的内容。
??????(1)如何设置监控页面和文章URL规则?
??????监控页面一般是你需要采集的文章的列表页,因为只有列表页才有总多被采集文章的URL,通过监控页面和文章URL规则,可以匹配出该监控页面所有的文章页URL。
??????如我要采集织梦管理员之家“DedeCms 使用技巧”栏目的文章,监控页面设置如下图:
??????监控页面地址:/?cat=3??????文章URL规则:/?p=(*)
??????目标页面编码选择被采集网站的编码,你可以点击测试来查看规则匹配的网址列表,能匹配出来URL说明你的文章URL规则正确,点击添加将规则加入到关键词采集方框里面,点击保存即可。
??????(2)文章URL规则编写方法
??????文章URL可以使用通配符(*)来匹配,有采集规则编写经验的用户可以很容易理解,通配符可以代替一个或多个真正的字符,通过下面例子更加直观的了解通配符的使用方法。
??????例:??????比如织梦管理员之家的文章URL都是以不同的数字作为结尾的,通配符就可以将数字部分用(*)进行代替如:/?p=(*)??????如admin5上的一篇文章的完整URL为:
/article331136.shtml
??????通配后:
/article/(*)/(*).shtml
??????RSS采集和页面监控采集设置好后,如果想了解采集效果,
文档评论(0)