数据挖掘基本概念与应用.pptVIP

  • 3
  • 0
  • 约1.28万字
  • 约 55页
  • 2017-02-09 发布于河南
  • 举报
数据挖掘基本概念与应用

数据挖掘基本概念与应用 腾讯研究院 数据分析研究室 报告内容 数据挖掘的基本概念 数据挖掘与统计分析 数据挖掘的基本算法 数据挖掘实施方法论 总结与讨论 什么是数据挖掘? 为什么会出现数据挖掘? 其他数据分析方法:统计学 数据挖掘:多学科的汇合 数据挖掘是一个过程 数据挖掘过程中的数据预处理 数据清洗 填充缺失值, 修均噪声数据, 识别或删除孤立点, 并解决数据不一致问题 主要分析方法:分箱(Binning)、聚类、回归 数据集成 多个数据库、数据方或文件的集成 数据变换 规范化与汇总 数据简化 减少数据量的同时, 还可以得到相同或相近的分析结果 主要分析方法:抽样、主成分分析 数据离散化 数据简化的一部分, 但非常重要 (尤其对于数值型数据来说) 数据挖掘过程中的数据探索 探索性数据分析(Exploratory Data Analysis, EDA) 探索性地查看数据,概括数据集的结构和关系 对数据集没有各种严格假定 “玩”数据 主要任务 数据可视化(a picture is worth a thousand words) 残差分析(数据=拟合 + 残差) 数据的重新表达(什么样的尺度-对数抑或平方根-会简化分析?) 方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值) 常见方法 统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等 统计图,

文档评论(0)

1亿VIP精品文档

相关文档