《商务数据采集与处理》课件 第3节:数据处理.pptxVIP

  • 4
  • 0
  • 约小于1千字
  • 约 8页
  • 2026-06-10 发布于山东
  • 举报

《商务数据采集与处理》课件 第3节:数据处理.pptx

商务数据采集课程第3节:数据处理

课程目标实现一个简单的小目标:1、理解数据处理方式2、学会使用数据格式化--正则匹配目标

编辑字段/movie/subject_search?search_text=%E5%BC%A0%E5%9B%BD%E8%8D%A3cat=1002选中字段,鼠标右键:编辑字段调整字段顺序:选中字段并拖拽修改字段名称:点击字段名修改复制/删除:复制或删除某个字段格式化数据:对数据进行清洗操作元素抓取方式:对字段的提取方式进行设置,如文本、源码、链接等修改元素定位:对字段的定位XPath进行设置,即字段在网页上的位置示例网址:

数据清洗/subject【添加特殊字段】点击添加页面元素、采集时间、页面网址、固定字段等。便于数据标记和后期排查。【格式化数据】1、在下方数据预览界面,点击字段的【…】按钮,或鼠标右键,选择【格式化数据】2、点击【添加步骤】,选择需要进行的操作:替换、正则替换、正则匹配、去除空格、添加前缀、添加后缀、时间格式化、时间戳转换、时区时间转换等等。示例网址:

数据清洗-正则表达式【正则表达式工具】的位置:字段右键-格式化数据,添加步骤,选择正则匹配或正则替换,点击“不懂正则,试试正则表达式”。

总结1、如在网页中通过点击生成的采集规则,其采集的数据符合需求,没有问题。则不调整高级选项中的设置,使用默认即可。2、根据具体

文档评论(0)

1亿VIP精品文档

相关文档