数据挖掘基本原理.pptVIP

  • 53
  • 0
  • 约 40页
  • 2017-08-27 发布于安徽
  • 举报
数据挖掘的基本原理 什么是数据挖掘? 为什么会出现数据挖掘? 其他数据分析方法:商业智能 其他数据分析方法:统计学 数据挖掘:多学科的汇合 数据挖掘是一个过程 数据挖掘过程中的数据预处理 数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(Binning)、聚类、回归 数据集成 多个数据库、数据方或文件的集成 数据变换 规范化与汇总 数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析 数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说) 数据挖掘过程中的数据探索 探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定 “玩”数据 主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据=拟合 + 残差) 数据的重新表达(什么样的尺度-对数抑或平方跟-会简化分析?) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值) 常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,如饼图、直方图、散点图、箱尾图等 模型,如聚类 数据挖掘结果的评价 兴趣度度量:一个模式是有意义的,如果它易于被人理解,在某种

文档评论(0)

1亿VIP精品文档

相关文档