- 4
- 0
- 约1.36千字
- 约 19页
- 2026-06-10 发布于山东
- 举报
商务数据采集课程
第10节:实战案例
L4:实战演练
新闻资讯案例概览
新闻资讯-人民网新闻
示例:人民网新闻
网址:/
需求:进行关键词搜索(“人工智能”,“大模型”),然后采集搜索后的新闻正文等信息。注意,只采集2026年至现在发布的新闻。
字段:搜索关键词,标题,发布时间,来源,正文,页面网址。
要点:循环文本、添加特殊字段、触发器
新闻资讯-人民网资讯
示例数据:
新闻资讯-人民网新闻(拓展)
1、时间日期格式化
解决:通过正则表达式得到时间数据,并对其格式化得到诸如
“2025-01-23”样式的数据。
2、只采集2025至现在发布的新闻
解决:设置触发器条件,当时间早于2025年1月1日,即丢弃数据。
注:触发器在做时间触发时,需要指定的时间格式。
电子商务案例概览
电子商务-京东
示例:京东商品筛选结果采集
网址:/list.html?cat=670,671,673
需求:选择某个类目进行筛选,如台式机大类下的联想品牌。然后采集筛选后的商品列表页信息。
字段:类目,品牌,商品名称,价格,商品详情页链接,评论数,评论链接,店铺名称,店铺链接,商品图片链接
电子商务-京东商品
示例数据:
电子商务-京东(排错)
1.数据遗漏
如:部分字段空白;
整条遗漏网页每页有60条数据,实际只采到30条。
解决:设置向下滚动,以便数据加载完全
2.数据错位篡行
如:自营字段出现了
原创力文档

文档评论(0)