PHP168采集教程forV6.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PHP168采集教程forV6

PHP168采集教程forV6 时间仓促加上本人表达能力有限,如有什么不妥的地方还请大家见谅,其实说到采集咱们论坛有很多高手,本教程供新手学习熟悉V6的采集,也欢迎各位高手指点。 一、采集菜单:如下图所示,V6的后台和以前的版本有一些改动,采集在右侧的“功能中心”里,单击后在左侧导航中选择“数据采集器”下的“采集规则管理”就打开了采集规则列表。 在上图中,是导航,如在规则修改中可以点击它返回重新选择其他规则。 是自已动手写一条规则,这是采集的主要功能,也是最常用到的。如果你觉得规则太难写了,可以从网上找现成的规则在里导入,多参考一下其他网友写的规则,很快你就会采集了,导入成功后规则列表里就会多出一条你导入的规则,你就可以用他来采集了。要是你不知道从那儿找规则,你可以单击这样就来到了PHP168论坛的采集区,你可以在这儿找你想要的规则,也可以求助于其他网友,当然有什么经验也可以来这儿和大家分享。 二、列表制作: 这是本教程的重点,希望大家认真学习。 单击后打开规则制作页: 1、在采集列表页,里输入你要采集的列表页,一行放一条地址 如果有的列表页有规则那么单选“有规则的连续多页”并设置好多页 下面是个示范,网易的证券要闻,列表首页地址为:/special/00251LR5/gundongyaowen.html 第二页地址为:/special/00251LR5/gundongyaowen_02.html 第三页地址为:/special/00251LR5/gundongyaowen_03.html …… 设置如下: 当然要采10页以后就得把前面的0去掉。用两条规则来搞定。 2、列表页规则设置,这里是标题采集的关键内容。 以网易证券要闻为例: 其列表页相应代码为: lispan class=articlea href=/09/0421/08/57DLM7RA00251LIE.html不少基金经理称目前无减仓计划/a a href=/09/0421/09/57DNEB0C00252HFI.htmlem class=cDRed今日大事点评/em/a/spanspan class=atime(2009-04-21 08:30)/span/li lispan class=articlea href=/09/0421/06/57DD945L00251LIE.html5家公司无法兑现股改承诺 将二次送股对价/a/spanspan class=atime(2009-04-21 06:03)/span/li 那么规则就是: lispan class=articlea href={url=NO}{title=NO}/a{*}span class=atime(2009-04-21{*})/span/li 在这条规则中{url=NO}表示不包括或边的,如果地址右边跟的是单引号,表达式就换成了:{url=NO’}还有一种情况是地址后面什么也没跟像:a href=/abc.html,那表达式就应该是:{url=NO},如果代码为:a href=/abc.html target=_blank表达式就是:{url=NO }。 §※§在规则中如果有不相同的内容,如发布时间可以用{*}来代码,{*}代码任意字符串,这儿可以变通一下,如我上面的规则就只采集2009年4月21日当天发表的内容。 其实在实际采集中,你把规则变成:{URL=*}及{title=*}也是可以采集到的,这是V6特别的东西,提示也全变成了这样,建议以后大家多用这种方式,*代码任意字符串。如果采不到内容,然后再用上面的老办法。 3、高级应用:如果测试标题结果不尽人意,比如采到不想要的内容,或者采到的地址有误那么就得进行高级设置了。 单击进入高级设置。 经常有人问采到的标题怎么全是乱码啊,其实在就可以设置,改成uft8-gbk就可以正常采集了。 这里可以设置你不想要的标题或地址。 如果发现把导航采回来可以在这过滤掉,一般没有导航字符会多于4个汉字吧。 这里也可以过滤掉一部分不用的地址如,个别网站在列表内调用了其他列表的地址,像论坛文章,由于来源不一采集时难免出错,那么这里就可以过滤掉。 如果采集到的地址或标题有误或有多余字符可以在这儿替换。 这条设置好后采集程序会自动给你处理指定代码片断中的标题与地址,而不用关心相关的正则怎么写。够省心吧:) 这可是真正的高级应用,PHP正则可以在指定地址前后加一些内容。不懂PHP者慎用。 按相应的设置写好规则单击“测试采集标题”如果采集到的标题和地址正确的话就可以进入下一步了。 三、内容页设置: 窗体顶端 类似奇虎/大旗框架对方网页即可 内容采集(常用,请选择) 高级采集(一般不用)窗体底端 这里可以选择

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档