数据挖掘课程内整理.docVIP

  • 7
  • 0
  • 约1.36万字
  • 约 5页
  • 2016-10-01 发布于贵州
  • 举报
数据挖掘课程内整理

数据挖掘:(定义)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。(功能)概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。(典型数据挖掘系统组成)数据库,数据仓库或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;图形用户界面。(步骤)(1)数据清理:消除重复的、不完全的、违反语义约束的数据(2)数据集成:多种数据源可以组合在一起(3)数据选择:从数据库中检索与分析任务相关的数据(4)数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作(5)数据挖掘:使用智能方法提取数据模式(6)模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式(7)知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识(前4个是数据预处理步骤) 据预处理:(原因)原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。(内容)a数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。b数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问

文档评论(0)

1亿VIP精品文档

相关文档