- 11
- 0
- 约5.39千字
- 约 112页
- 2023-02-21 发布于广东
- 举报
大数据预处理;大数据预处理;大数据预处理; 数据预处理目的; 数据预处理步骤;大数据预处理;大数据预处理;定义:对数据进行重新审查和校验的过程。
目的:删除重复数据、纠正数据中存在的错误,并使数据保持一致性。;定义:
指在现有的数据集中缺失的数据,即存在某个属性的值是不完全的。;删除具有缺失数据的元组
将有缺失数据的元组直接删除,使得数据集中没有缺失数据。
直接分析有缺失数据的数据集
忽略缺失数据,不删除具有缺失数据的元组,也不对有缺失数据的数据集进行填补,直接在具有缺失数据的数据集上进行数据挖掘与分析。;定义:离群点是指数据集中的异常数据。
形成原因:
由于数据来自不同类别,从而导致离群点的产生。
由于数据采集和测量存在误差,从而导致离群点的产生。;从离群点的位置来看
离群点可分为全局离群点和局部离群点。
从数据对象属性的角度来看
离群点可分为单属性离群点和多属性离群点。;基于统计学的离群点检测方法
将那些与分布模型拟合度小的数据定义为离群点。
基于深度的离群点检测方法
将那些处于浅层的数据定义为离群点。
基于密度的离群点检测方法
将离群点定义为低密度区域中的数据对象。;首先为数据集创建一个统计学分布模型,然后检测数据集与数学分布模型的拟合概率。
正态分布曲线在两端的概率是非常小的,当数据集的数据量比较大的时候,采用基于统计学的离群点检测方法的效果较好。;大数据预处理;大数据预处理;定义:数据集成就是将存储在不同存储介质中的数据合并到一致的存储介质中。
主要面临以下问题:
字段意义问题 字段结构问题 字段冗余问题
数据重复问题 数据冲突问题;字段意义问题指当两个数据源中有两个相同的字段,但这两个字段分别代表不同的意义,或者两个数据源中意义相同的数据是用不同的字段表示的。
例如,在整合数据源时,两个数据源中有着相同的字段“salary”,但该字段分别表示税前工资和税后工资。;大数据预处理;大数据预处理;定义:
数据转换,就是将数据从一种表示形式转换为另一种表现形式。;平滑处理:目标是去除数据中的噪声,主要技术方法有Bin方法、聚类方法和回归方法。
合计处理:指对数据进行总结或合计操作,常用于构造数据立方或对数据进行多粒度的分析。
泛化处理:指概念的替换,使用高层次的概念替换低层次的概念。例如,地点属性城市,可以泛化成省级或者国家等高层次的概念。;属性构造:又称为特征构造,指在数据集中根据已有的属性集构造新的属性,以帮助数据处理过程。
规格化处理:指将有关属性的数据按比例投射到特定的范围中。常用的三种规格化方法有最大最小规格化方法、零均值规格化方法、十基数变换规格化方法。
数据离散化:指将数据集中连续的数值属性转换为离散的分类属性,以符合数据挖掘算法只能处理分类属性的要求。;大数据预处理;大数据预处理;定义:
数据归约,就是在尽可能保持数据原貌的前提下,最大限度地精简数据量。;属性子集的选择
筛选出与数据挖掘相关的属性。常用方法:逐步向前选择、逐步向后删除、向前选择和向后删除相结合、判定归纳树(分类算法)、基于统计分析的主成分分析和回归分析等。;谢谢观看;数据处理任务;数据处理任务;数据处理任务; 数据处理任务;来源:/item/wekafr=aladdin
/item/spss/2351375?fr=aladdin
/zlslch/p/6838525.html
/a/381868864_120233365;商用数据处理工具;数据处理任务;数据处理任务;构建模型
预设分类类别,对每个样本进行类别标记,通过数据训练集构成分类模型。
测试模型
识别测试样本的所属类别,通过对比测试样本的识别类别与实际类别来评价模型正确性。
使用模型
利用模型来完成数据分类任务,输出最终的分类结果。;分类任务;利用花瓣的长宽对两个不同的花种进行分类。
横轴为花瓣的长度,纵轴为花瓣的宽度,花种1的花瓣长宽较短,花种2花瓣长度和宽度较长。;数据处理任务;数据处理任务;过程:数据准备、特征选择、聚类、分组。
要求:
可扩展性 可处理不同类型属性 可发现任意形状聚类
可处理噪声数据 可自动选择输入参数 对输入数据不敏感
可处理高维数据 可进行基于约束的聚类 ;数据处理任务;数据处理任务;发现数据集中不同数据项之间的关系。
查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果关系。
描述某些属性同时出现的规律和模式,找出强关联规则。;将牛奶、面包组成一个集合{牛奶、面包},其中牛奶和面包为项,{牛奶、面包}为项集。
支持
您可能关注的文档
- 《云计算与大数据》第10章 大数据应用.pptx
- 《云计算与大数据》第11章 大数据隐私保护.pptx
- 《云计算与大数据》第12章 商用云计算平台.pptx
- 《云计算与大数据》第13章 云操作系统OpenStack.pptx
- 《云计算与大数据》第14章 云仿真平台CloudSim.pptx
- 《云计算与大数据》第15章 分布式大数据平台Hadoop.pptx
- 《云计算与大数据》第16章 分布式内存计算平台Spark.pptx
- 《云计算与大数据》第1章 云计算概览.pptx
- 《云计算与大数据》第2章 虚拟化与容器技术.pptx
- 《云计算与大数据》第3章 云存储.pptx
- 河北盐山中学等校2025-2026学年上学期高三一模化学试卷(含解析).docx
- 河北正定中学2025-2026学年高一上学期期末考试物理试卷(含解析).docx
- 河北张家口市怀安县2025-2026学年第一学期期末教学综合评价八年级地理试卷(含解析).docx
- 河南安阳市殷都区2025-2026学年第一学期期末教学质量检测七年级地理试卷(含解析).docx
- 河南安阳市滑县2025一2026学年第一学期期末学业质量监测八年级地理试题(含解析).docx
- 河南安阳市林州市2025-2026学年上学期期末考试高一政治试题(含解析).docx
- 河南焦作市武陟县第一中学2025-2026学年高一上学期1月月考语文试卷(含解析).docx
- 河南济源市2025-2026学年上学期期末学业质量调研七年级历史试卷(含解析).docx
- PICC导管并发症的紧急处理与护理.pptx
- 河南鹤壁市2025-2026学年高二上学期期末考试生物试题(含解析).docx
最近下载
- 液压矿用挖掘机acxq0597-00新.pdf VIP
- 沥青路面修复施工方案.docx VIP
- ASME CASE 2235-10 Use of Ultrasonic Examination in Lieu of Radiography.pdf VIP
- 3随机事件的概率讲义教材.ppt VIP
- 《旅居养老服务规范》DB46T 695-2025.docx VIP
- DB11T 2293-2024 住宅工程质量品质提升技术标准.docx VIP
- 九年级数学随机事件和概率.ppt VIP
- 2025年山东省纪委监委公开遴选公务员笔试试题及答案解析 .docx VIP
- 三星H635说明书.pdf VIP
- 北京纪委监委公开遴选公务员笔试试题及答案解析.docx VIP
原创力文档

文档评论(0)