八爪鱼采集提取数据中格式化数据设置(支持正则).docxVIP

八爪鱼采集提取数据中格式化数据设置(支持正则).docx

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
八爪鱼采集提取数据中格式化数据的设置(支持正则)本章主要介绍在提取数据步骤中,如何利用格式化数据对需要的字段进行修改。示例网址:/guide/demo/genremoviespage1.html定义:格式化数据指对提取到的数据字段进行格式的改变使数据更加满足你的需求。下面对格式化数据进行演示:步骤一:点击自定义采集下的立即使用→输入网址并保存格式化数据的设置(支持正则)-图1格式化数据的设置(支持正则)-图2步骤二:点击采集位置→循环采集元素→补充并修改提取元素步骤格式化数据的设置(支持正则)-图3格式化数据的设置(支持正则)-图4说明:循环采集元素会采集所有信息,。我们在补充并修改提取元素步骤,进行了删除第一个字段操作,同时添加了我们需要的正确字段。步骤三:格式化数据选中要修改的字段→点击高级选项中自定义数据字段(如下图)→格式化数据→添加步骤格式化数据的设置(支持正则)-图5格式化数据的设置(支持正则)-图6格式化数据的设置(支持正则)-图7使用格式化数据的统一步骤,打开格式化数据并点击添加步骤后,可以看到有多个选项,下面我们分别对其进行讲述。格式化数据的设置(支持正则)-图8(1)替换格式化数据的设置(支持正则)-图9格式化数据的设置(支持正则)-图10说明:替换是将字段替换为其他字段的步骤,例如示例中将肖申克的救赎中的救赎替换为月亮,在替换下输入需要替换的内容,在为下输入需要替换的内容,即将XX替换为XX。设置完成可以点击下方的计算验证是否替换。除了文字、数字、符号外,替换还可以替换空格、换行符等内容,假如只输入替换内容不输入替换为的内容,则形成替换的删除作用,将替换中的内容进行删除。(2)正则表达式替换格式化数据的设置(支持正则)-图11格式化数据的设置(支持正则)-图12格式化数据的设置(支持正则)-图13格式化数据的设置(支持正则)-图14格式化数据的设置(支持正则)-图15说明:正则表达式替换是利用正则表达式匹配字段并进行替换。八爪鱼自带正则表达式工具。打开正则表达式替换后,点击下方“不懂正则?试试正则工具”,打开正则表达式工具。格式化数据的设置(支持正则)-图16如上图,源文本中显示字段内容,右侧勾选开始和结束操作规定需要匹配内容的边界,包含开始或包含结束负责判断是否将输入的边界页包含进去,勾选包含则如图匹配出肖申克,假如不勾选则匹配 申。包含一个即匹配出的内容必须包含此输入框中的内容才进行匹配,如:格式化数据的设置(支持正则)-图17格式化数据的设置(支持正则)-图18将包含一个中“的”修改成“得”则匹配不到任何内容,因为肖申克的救赎中使用的是“的”。正则表达式编写完成后,点击应用,表达式就会出现在正则匹配的匹配栏中,在替换为一栏中输入需要替换成的内容,点击计算预览替换效果,点击确定就可以完成匹配操作了。格式化数据的设置(支持正则)-图19(3)正则表达式匹配正则表达式匹配是利用正则表达式完成对字段内容的匹配和提取,正则工具的使用方法参考正则替换。格式化数据的设置(支持正则)-图20如图,使用正则表达式匹配出肖申克内容。点击确定即可完成正则表达式匹配。(4)去除空格功能即是去除字段前后端的空格。格式化数据的设置(支持正则)-图21如图,字段开头有一串空格,选中去除两头空格后点击计算八爪鱼会去除两头的空格,也可以使用前两个选项去除开头或者结尾处的空格。点击确定便应用于字段中。(5)添加前缀功能即是在字段开头添加前缀。格式化数据的设置(支持正则)-图22如图,在前缀中输入要添加的内容,点击计算查看输出结果。示例中输入这是内容,点击计算后可以看到字段变为这是肖申克的救赎。点击确定后应用于字段当中。(6)添加后缀与添加前缀功能类似,添加内容在字段结尾部分。格式化数据的设置(支持正则)-图23如图,在后缀处输入要添加的后缀内容,点击计算查看输出结果。示例中输入才怪内容,计算后呈现肖申克的救赎才怪内容。点击确定后应用于字段当中。(7)日期时间格式化格式化数据的设置(支持正则)-图24如图,点击日期时间格式化后,在格式处选择所需格式,可以将日期转化成你说需要的格式或者仅提取日期时间中的某一部分。选中格式后点击计算即可预览,从中选择适合的格式来使用。(8)Html转码Html语言是一种超文本标记语言,Html转码是将Html标记转化为普通文本,教程里不做过多介绍。说明:格式化数据可以对同一字段进行多次格式化来达成需求,比如我们对示例网址进行格式化,下面进行示范。示例网址:/guide/demo/genremoviespage1.html格式化:提取genremoviespage1字段,并将其中movies单独提取出来,加上前缀使之变成示例movies。步骤1:正则匹配,提取genremoviespage1字段格式化数据的设

文档评论(0)

wx171113 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档