机器学习算法思想与实践 课件 第4章——数据收集与质量控制.pptx

机器学习算法思想与实践 课件 第4章——数据收集与质量控制.pptx

数据收集与质量控制

目录01数据收集方法02数据质量分析03数据分布与拆分

数据收集方法01

公开数据集由政府、学术机构等发布,数据经过处理,结构化存储,质量较高,如政府统计数据集。数据交易平台则将数据作为商品交易,涵盖市场调研、消费者行为等数据,但需在法律许可范围内进行。API接口是常见获取方式,通过发送请求到指定URL获取数据,如天气预报、新闻网站API。RSS订阅可获取订阅源最新信息,如博客、新闻网站更新。API接口与RSS订阅数据质量高,但可能存在更新不及时、数据维度有限等问题。需关注数据的时效性和适用性,确保满足分析需求。优势与局限公开数据集与交易平台(对接现有数据集)

网络爬虫模拟

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档