《大数据技术与应用》第3章 大数据预处理.pptxVIP

  • 4
  • 0
  • 约3.87千字
  • 约 54页
  • 2023-05-16 发布于广东
  • 举报

《大数据技术与应用》第3章 大数据预处理.pptx

第二章 大数据预处理技术;数据基础概念;;标称属性:一些符号或事物的名称。枚举的(enumeration)。例如,头发颜色:黑色,棕色,淡黄色等。 二元属性:一种标称属性,只有两个状态:0 或 1,其中 0 通常表示该属性不出现,1 表示出现。 对称的二元属性:两种状态具有同等价值,并且携带相同权重。例如,男女 非对称的二元属性:两种状态的结果不是同等重要的,例如,HIV 患者和非 HIV 患者 序数属性:属性对应的可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。例如,饮料杯的大小:(小、中、大) 数值属性:数值属性是定量的,是一种可度量的量,用整数或实数表示 区间标度:属性用相等的单位尺度度量。区间属性的值有序。 比例标度:比率标度属性的度量是比率的,可以用比率来描述两个值,即一个值是另一个值的倍数,也可以计算值之间的差。例如,货币量属性(例如 100 元是 1 元的 100 倍) ; 机器学习: 1. 离散属性:具有有限个或无限个可数个值,可以用或不用整数表示。 2. 连续属性:如果属性不是离散的,则它是连续的。;中心趋势度量:;中心趋势度量:均值;中心趋势度量:中位数;中心趋势度量:众数;度量数据散布:极差、分位数、方差和标准差;1. 欧氏距离(Euclidean Distance):;4. 闵可夫斯基距离(Minkowski Distance):;7. 夹角余弦(Cosine):;9.杰卡德相似系数(Jaccard similarity coefficient):相似性;11.相关系数?( Correlation coefficient ):相似性;;评估数据质量的参数指标包括: 准确性 完整性 一致性;数据清洗 包括填补存在遗漏的数据值、平滑有噪音的数据、识别和除去异常值,并且解决数据不一致等问题。 数据集成 指将多个不同数据源的数据合并在一起,形成一致的数据存储。 数据归约 在尽可能保持数据原貌的前提下,最大限度地精简数据量,并保证数据归约前后的数据挖掘结果相同或几乎相同。 数据变换 指将数据库转换成适合挖掘的形式,通常包括平滑处理、聚集处理、数据泛化处理、规范化、属性构造等方式。;;包括填补存在遗漏的数据值、平滑有噪音的数据、识别和除去异常值,并且解决数据不一致等问题。 缺失值处理 光滑噪声数据处理 检测偏差与纠正偏差;数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入 引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载(事务操作都会被日志文件记载,每次修改操作需要查找日志) 空缺值要经过推断而补上,否则算法中断报错;直接忽略掉空缺值的整个属性或元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,其效果非常差。 人工填写空缺值:工作量大,可行性低 使用一个全局变量填充空缺值:比如使用unknown或-∞ 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值(基于数学算法):使用像Bayesian公式或判定树等的基于模型推断的方法;噪声:一个测量变量中的随机错误或偏差 引起不正确属性值的原因 数据收集工具不够精确引起的问题 数据输入错误 数据传输错误(通信协议问题) 技术限制 命名规则的不一致 其它需要数据清理的数据问题 重复记录(引起冗余) 不完整的数据 不一致的数据;分箱(binning): 首先排序数据,并将其分到等深箱中(容放相等个数数据) 然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等,从而达到平滑噪声的目的 聚类: 监测并且去除孤立点 计算机和人工检查结合 计算机检测可疑数据,然后对其进行人工判断(工作量大) 回归: 通过让数据适应回归函数来平滑数据;1 首先对数据进行排序:price的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34 2 划分为(等深的)箱: 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34 3.1 用箱平均值平滑: 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29 4.2 用箱边界平滑(以左边界为例): 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34;数据清洗 ;回归去噪一般是将Y1调整到Y1’,不是删除;(1)检测偏差。 考察数据规则: 唯一性规则:给定属性的每个值都必须不同于该属性的其他值。 连续性规则:属性的最高值和最低值之间没有缺失值。 空 值 规 则:空白、问号、特殊符号或指示空值条件的字符串以及如

文档评论(0)

1亿VIP精品文档

相关文档