《云计算与大数据》第9章大数据处理.pptxVIP

下载本文档

11
0
约5.39千字
约 112页
2023-02-21 发布于广东
举报

《云计算与大数据》第9章大数据处理.pptx

大数据预处理;大数据预处理;大数据预处理; 数据预处理目的; 数据预处理步骤;大数据预处理;大数据预处理;定义：对数据进行重新审查和校验的过程。目的：删除重复数据、纠正数据中存在的错误，并使数据保持一致性。;定义：指在现有的数据集中缺失的数据，即存在某个属性的值是不完全的。;删除具有缺失数据的元组将有缺失数据的元组直接删除，使得数据集中没有缺失数据。直接分析有缺失数据的数据集忽略缺失数据，不删除具有缺失数据的元组，也不对有缺失数据的数据集进行填补，直接在具有缺失数据的数据集上进行数据挖掘与分析。;定义：离群点是指数据集中的异常数据。形成原因：由于数据来自不同类别，从而导致离群点的产生。由于数据采集和测量存在误差，从而导致离群点的产生。;从离群点的位置来看离群点可分为全局离群点和局部离群点。从数据对象属性的角度来看离群点可分为单属性离群点和多属性离群点。;基于统计学的离群点检测方法将那些与分布模型拟合度小的数据定义为离群点。基于深度的离群点检测方法将那些处于浅层的数据定义为离群点。基于密度的离群点检测方法将离群点定义为低密度区域中的数据对象。;首先为数据集创建一个统计学分布模型,然后检测数据集与数学分布模型的拟合概率。正态分布曲线在两端的概率是非常小的，当数据集的数据量比较大的时候,采用基于统计学的离群点检测方法的效果较好。;大数据预处理;大数据预处理;定义：数据集成就是将存储在不同存储介质中的数据合并到一致的存储介质中。主要面临以下问题：字段意义问题字段结构问题字段冗余问题数据重复问题数据冲突问题;字段意义问题指当两个数据源中有两个相同的字段，但这两个字段分别代表不同的意义，或者两个数据源中意义相同的数据是用不同的字段表示的。例如，在整合数据源时，两个数据源中有着相同的字段“salary”，但该字段分别表示税前工资和税后工资。;大数据预处理;大数据预处理;定义：数据转换，就是将数据从一种表示形式转换为另一种表现形式。;平滑处理：目标是去除数据中的噪声，主要技术方法有Bin方法、聚类方法和回归方法。合计处理：指对数据进行总结或合计操作，常用于构造数据立方或对数据进行多粒度的分析。泛化处理：指概念的替换，使用高层次的概念替换低层次的概念。例如，地点属性城市，可以泛化成省级或者国家等高层次的概念。;属性构造：又称为特征构造，指在数据集中根据已有的属性集构造新的属性，以帮助数据处理过程。规格化处理：指将有关属性的数据按比例投射到特定的范围中。常用的三种规格化方法有最大最小规格化方法、零均值规格化方法、十基数变换规格化方法。数据离散化：指将数据集中连续的数值属性转换为离散的分类属性，以符合数据挖掘算法只能处理分类属性的要求。;大数据预处理;大数据预处理;定义：数据归约，就是在尽可能保持数据原貌的前提下，最大限度地精简数据量。;属性子集的选择筛选出与数据挖掘相关的属性。常用方法：逐步向前选择、逐步向后删除、向前选择和向后删除相结合、判定归纳树（分类算法）、基于统计分析的主成分分析和回归分析等。;谢谢观看;数据处理任务;数据处理任务;数据处理任务; 数据处理任务;来源：/item/wekafr=aladdin /item/spss/2351375?fr=aladdin /zlslch/p/6838525.html /a/381868864_120233365;商用数据处理工具;数据处理任务;数据处理任务;构建模型预设分类类别，对每个样本进行类别标记，通过数据训练集构成分类模型。测试模型识别测试样本的所属类别，通过对比测试样本的识别类别与实际类别来评价模型正确性。使用模型利用模型来完成数据分类任务，输出最终的分类结果。;分类任务;利用花瓣的长宽对两个不同的花种进行分类。横轴为花瓣的长度，纵轴为花瓣的宽度，花种1的花瓣长宽较短，花种2花瓣长度和宽度较长。;数据处理任务;数据处理任务;过程：数据准备、特征选择、聚类、分组。要求：可扩展性可处理不同类型属性可发现任意形状聚类可处理噪声数据可自动选择输入参数对输入数据不敏感可处理高维数据可进行基于约束的聚类 ;数据处理任务;数据处理任务;发现数据集中不同数据项之间的关系。查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果关系。描述某些属性同时出现的规律和模式，找出强关联规则。;将牛奶、面包组成一个集合{牛奶、面包}，其中牛奶和面包为项，{牛奶、面包}为项集。支持

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《云计算与大数据》第9章大数据处理.pptxVIP