《商务数据采集与处理》课件 第9节:实战案例.pptxVIP

  • 4
  • 0
  • 约1.36千字
  • 约 19页
  • 2026-06-10 发布于山东
  • 举报

《商务数据采集与处理》课件 第9节:实战案例.pptx

商务数据采集课程

第10节:实战案例

L4:实战演练

新闻资讯案例概览

新闻资讯-人民网新闻

示例:人民网新闻

网址:/

需求:进行关键词搜索(“人工智能”,“大模型”),然后采集搜索后的新闻正文等信息。注意,只采集2026年至现在发布的新闻。

字段:搜索关键词,标题,发布时间,来源,正文,页面网址。

要点:循环文本、添加特殊字段、触发器

新闻资讯-人民网资讯

示例数据:

新闻资讯-人民网新闻(拓展)

1、时间日期格式化

解决:通过正则表达式得到时间数据,并对其格式化得到诸如

“2025-01-23”样式的数据。

2、只采集2025至现在发布的新闻

解决:设置触发器条件,当时间早于2025年1月1日,即丢弃数据。

注:触发器在做时间触发时,需要指定的时间格式。

电子商务案例概览

电子商务-京东

示例:京东商品筛选结果采集

网址:/list.html?cat=670,671,673

需求:选择某个类目进行筛选,如台式机大类下的联想品牌。然后采集筛选后的商品列表页信息。

字段:类目,品牌,商品名称,价格,商品详情页链接,评论数,评论链接,店铺名称,店铺链接,商品图片链接

电子商务-京东商品

示例数据:

电子商务-京东(排错)

1.数据遗漏

如:部分字段空白;

整条遗漏网页每页有60条数据,实际只采到30条。

解决:设置向下滚动,以便数据加载完全

2.数据错位篡行

如:自营字段出现了

文档评论(0)

1亿VIP精品文档

相关文档