Hadoop刘鹏云计算与数据挖掘幻灯片.pptVIP

  • 10
  • 0
  • 约1.11万字
  • 约 116页
  • 2018-03-26 发布于未知
  • 举报
* * * * * * * * * * * * 并行数据处理(ETL) ETL操作可以分为普通ETL和链式ETL。 普通ETL和链式ETL分别又细分为:清洗类、转换类、集成类、计算类、抽样类、集合类、更新类、及其它类8大类。 类别 组件名 功能 清洗类 数据类型检查 对输入文件逐条记录地检查每个字段的数据是否与元数据中的类型相符合 外键约束 升级主键表或升级外键表后的外键约束检查 主键约束 对数据表的主键约束检查,包括主键非空和主键唯一 缺值处理 按照指定的替换值填补数据文件中的缺值或Null值等 空值域约束 包括非空值约束、值域范围检查和自定义约束检查 去重 将完全重复的数据行丢弃 转换类 Casewhen 将符合条件的数据按指定进行转换,类似SQL的case when 计数区间化 按计数将指定字段值区间化为N个区间,每个区间数据个数相等,并为该字段按不同区间设置特定值 字段类型转换 支持对多个字段进行字段名或字段类型的修改,提供多种数据类型字段之间的强制转换 数值区间化 按数值将指定字段值区间化为N个区间,每个区间数据取值范围相等,并为该字段按不同区间设置特定值 归一化 对指定字段按该字段的均值和标准偏差,进行zscore归一化 属性交换 将属性的两列互换 关联规则数据生成 将业务订购情况数据生成购物篮数据供关联规则算法使用 PCA主成分分析 将输入数据的属性由高维降到较低的

文档评论(0)

1亿VIP精品文档

相关文档