- 4
- 0
- 约小于1千字
- 约 8页
- 2026-06-10 发布于山东
- 举报
商务数据采集课程第3节:数据处理
课程目标实现一个简单的小目标:1、理解数据处理方式2、学会使用数据格式化--正则匹配目标
编辑字段/movie/subject_search?search_text=%E5%BC%A0%E5%9B%BD%E8%8D%A3cat=1002选中字段,鼠标右键:编辑字段调整字段顺序:选中字段并拖拽修改字段名称:点击字段名修改复制/删除:复制或删除某个字段格式化数据:对数据进行清洗操作元素抓取方式:对字段的提取方式进行设置,如文本、源码、链接等修改元素定位:对字段的定位XPath进行设置,即字段在网页上的位置示例网址:
数据清洗/subject【添加特殊字段】点击添加页面元素、采集时间、页面网址、固定字段等。便于数据标记和后期排查。【格式化数据】1、在下方数据预览界面,点击字段的【…】按钮,或鼠标右键,选择【格式化数据】2、点击【添加步骤】,选择需要进行的操作:替换、正则替换、正则匹配、去除空格、添加前缀、添加后缀、时间格式化、时间戳转换、时区时间转换等等。示例网址:
数据清洗-正则表达式【正则表达式工具】的位置:字段右键-格式化数据,添加步骤,选择正则匹配或正则替换,点击“不懂正则,试试正则表达式”。
总结1、如在网页中通过点击生成的采集规则,其采集的数据符合需求,没有问题。则不调整高级选项中的设置,使用默认即可。2、根据具体
您可能关注的文档
最近下载
- 生产线人员绩效考核设计方案.docx VIP
- 招股说明书原来可以这样玩 - 阅读版.pdf
- 贵州省2024年7月普通高中学业水平合格性考试物理真题及答案详解.docx VIP
- 24思科模拟器cisco packet tracer实验教程.pdf VIP
- HB∕Z 131-2020 高温合金母合金选用原材料技术要求.pdf
- 2025年国企中层干部竞聘笔试题(答案+解析).docx VIP
- 墙面一般抹灰专项施工方案.docx
- 2017版《江西省建设工程定额》宣贯材料汇总.pdf VIP
- 徐州医科大学2023-2024学年第2学期《高等数学(下)》期末试卷(A卷)附标准答案.pdf
- 湖南省普通高等学校对口招生考试计算机应用类专业综合知识试题.doc VIP
原创力文档

文档评论(0)