数据挖掘原语、语言和系统结构(武汉大学-李春葆).pptVIP

  • 4
  • 0
  • 约1.02万字
  • 约 39页
  • 2017-07-25 发布于湖北
  • 举报

数据挖掘原语、语言和系统结构(武汉大学-李春葆).ppt

数据挖掘原语、语言和系统结构(武汉大学-李春葆)

第4章 数据挖掘原语、语言和系统结构 4.1.1 为什么要数据挖掘原语和语言? 一个完全自动(不需要人为干预或指导)的数据挖掘机器只可能是“一只疯了的怪兽”。 会产生大量模式(重新把知识淹没) 会涵盖所有数据,使得挖掘效率低下 大部分有价值的模式集可能被忽略 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣。 没有精确的指令和规则,数据挖掘系统就没法使用。 用数据挖掘原语和语言来指导数据挖掘。 4.1.1 任务相关的数据 用户感兴趣的只是数据库或数据仓库的一个子集。 相关的操作:DB-选择、投影、连接、聚集等;DW-切片、切块 初始数据关系 数据子集选择过程产生的新的数据关系 可挖掘的视图 用于数据挖掘相关任务的数据集 任务相关的数据——例子 挖掘加拿大顾客和他们常在AllElectronics购买的商品间的关联规则 数据库(仓库)名 (e.g. AllElectronics_db)。 包含相关数据的表或数据立方体名(e.g. item, customer, purchases, item_sold)。 选择相关数据的条件(今年、加拿大)。 相关的属性或维(item表的name和price,customer表的income和age)。 4.1.2 要挖掘的知识类型 要挖掘的知识类型将决定使用什么数据挖掘功能。 概念描述(特征化和区分),关联规则,分类/预测,

文档评论(0)

1亿VIP精品文档

相关文档