火车采集器教程-标签纯正则替换功能.docVIP

  • 323
  • 0
  • 约小于1千字
  • 约 5页
  • 2018-04-14 发布于广东
  • 举报

火车采集器教程-标签纯正则替换功能.doc

火车头采集器,教程,学习资料,技术资料,参考文件。

查看此教程建议视图: 因为包含很多图片,其他视图导致图片查看不全。 我们可以通过标签纯正则替换功能,从采集的信息里面提取我们想要的内容,这个功能需要有一定的正则表达式功底,这里 重点说明采集器里面如何使用正则,具体的正则是什么意思,你如果想使用可以查资料研究,这个不是我们教程的重点。 这个功能就是用正则表达式分开来表达我们需要的部分和不需要的部分,然后把需要的那那部分拿出来,不要的那部分就去掉。 用下面的一个例子来简单说明下如何在采集器里面使用: 打开正则替换界面: 界面如下: 原正则表达式 : 用正则把需要的部分和不需要的部分分开表示出来,不同部分用括号区分开来 替换后表达式 : 把需要的那部分放到这里,也可以随意写些别的组合在这里,用采集器自带的表示方式 $1 $2 $数字表示 比如上图我们要从标题里面使用正则把“清纯女生”四个字给提取出来。 使用正则把标题给表示出来如下图: 原理是:用最简单的正则 前面3个汉字做为一组 中间4个汉字做为一组 剩下的是一组 每一组用括号()区分 我们要的是第二组 那么替换后表达式就直接写$2 要第一组就是$1 以此类推 采集器里面使用正则的规律就是上面说的那样 先用正则分开表示 用括号区分开来 然后用$1 $2 $数字 依次对应表示结果 看下测试结果: 测试结果是对的。

文档评论(0)

1亿VIP精品文档

相关文档