Chapter6-厦门大学-林子雨-大数据导论（第2版）-第6章-数据采集与预处理（2024年8月版本）.pptVIP

下载本文档

0
0
约1.33万字
约 78页
2026-03-14 发布于广东
举报

Chapter6-厦门大学-林子雨-大数据导论（第2版）-第6章-数据采集与预处理（2024年8月版本）.ppt

6.1.5网络爬虫4.Scrapy爬虫（2）Scrapy工作流Scrapy工作流也叫作“运行流程”或叫作“数据处理流程”，整个数据处理流程由Scrapy引擎进行控制，其主要的运行步骤如下：①Scrapy引擎从调度器中取出一个链接（URL）用于接下来的抓取；②Scrapy引擎把URL封装成一个请求并传给下载器；③下载器把资源下载下来，并封装成应答包；④爬虫解析应答包；⑤如果解析出的是项目，则交给项目管道进行进一步的处理；⑥如果解析出的是链接（URL），则把URL交给调度器等待抓取。6.1.5网络爬虫5.反爬机制为什么会有反爬机制？原因主要有两点：第一，在大数据时代，数据是十分宝贵的财富，很多企业不愿意让自己的数据被别人免费获取，因此，很多企业都为自己的网站运用了反爬机制，防止网页上的数据被爬走；第二，简单低级的网络爬虫，数据采集速度快，伪装度低，如果没有反爬机制，它们可以很快地抓取大量数据，甚至因为请求过多，造成网站服务器不能正常工作，影响了企业的业务开展。反爬机制也是一把双刃剑，一方面可以保护企业网站和网站数据，但是，另一方面，如果反爬机制过于严格，可能会误伤到真正的用户请求，也就是真正用户的请求被错误当成网络爬虫而被拒绝访问。如果既要和“网络爬虫”死磕，又要保证很低的误伤率，那么又会增加网站研发的成本。6.2数据清洗6.2.1数据清洗的应用领域6.2.2数据清洗的实现方式6.2.3数据清洗的内容6.2.4数据清洗的注意事项6.2.5数据清洗的基本流程6.2.6数据清洗的评价标准6.2.7数据清洗的行业发展6.2.1数据清洗的应用领域数据清洗的主要应用领域包括数据仓库与数据挖掘、数据质量管理。（1）数据仓库与数据挖掘。数据清洗对于数据仓库与数据挖掘应用来说，是核心和基础，它是获取可靠、有效数据的一个基本步骤。数据仓库是为了支持决策分析的数据集合，在数据仓库领域，数据清洗一般是应用在几个数据库合并时或者多个数据源进行集成时。例如，指代同一个实体的记录，在合并后的数据库中就会出现重复的记录。数据清洗就是要把这些重复的记录识别出来并消除它们。数据挖掘是建立在数据仓库基础上的增值技术，在数据挖掘领域，经常会遇到挖掘出来的特征数据存在各种异常情况，如数据缺失、数据值异常等。对于这些情况，如果不加以处理，就会直接影响到最终挖掘模型的使用效果，甚至会使得创建模型任务失败。因此，在数据挖掘过程中，数据清洗是第一步。6.2.1数据清洗的应用领域（2）数据质量管理。数据质量管理贯穿数据生命周期的全过程。在数据生命周期中，可以通过数据质量管理的方法和手段，在数据生成、使用、消亡的过程中，及时发现有缺陷的数据，然后借助数据管理手段，将数据正确化和规范化，从而达到符合要求的数据质量标准。总体而言，数据质量管理覆盖质量评估、数据去噪、数据监控、数据探查、数据清洗、数据诊断等方面，而在这个过程中，数据清洗是决定数据质量好坏的重要因素。6.2.2数据清洗的实现方式数据清洗按照实现方式，可以分为手工清洗和自动清洗。（1）手工清洗。手工清洗是通过人工方式对数据进行检查，发现数据中的错误。这种方式比较简单，只要投入足够的人力、物力、财力，也能发现所有错误，但效率低下。在大数据量的情况下，手工清洗数据几乎是不可能的。（2）自动清洗。自动清洗是通过专门编写的计算机应用程序来进行数据清洗。这种方法能解决某个特定的问题，但不够灵活，特别是在清洗过程需要反复进行时（一般来说，数据清洗一遍就达到要求的很少），程序复杂，清洗过程变化时工作量大。而且，这种方法也没有充分利用目前数据库提供的强大的数据处理能力。6.2.3数据清洗的内容（1）缺失值处理。由于调查、编码和录入误差，数据中可能存在一些缺失值，需要给予适当的处理。常用的处理方法有：估算、整例删除、变量删除和成对删除。（a）估算：最简单的办法就是用某个变量的样本均值、中位数或众数代替缺失值。这种办法简单，但没有充分考虑数据中已有的信息，误差可能较大。另一种办法就是根据调查对象对其他问题的答案，通过变量之间的相关分析或逻辑推论进行估计。例如，某一产品的拥有情况可能与家庭收入有关，可以根据调查对象的家庭收入推算拥有这一产品的可能性。（b）整例删除：剔除含有缺失值的样本。由于很多问卷都可能存在缺失值，这种做法的结果可能导致有效样本量大大减少，无法充分利用已经收集到的数据。因此，只适合关键变量缺失，或者含有异常值或缺失值的样本比重很小的情况。（c）变量删除：如果某一变量的缺失值很多，而且该变量对于所研究的问题不是特别重要，则可以考虑将该变量删除。这种做法减少了供分析用的变量数目，但没有改变样本量。（d）成对删除：是用一个特殊码(通常是9、99

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Chapter6-厦门大学-林子雨-大数据导论（第2版）-第6章-数据采集与预处理（2024年8月版本）.pptVIP