统计类数据挖掘和知识类数据挖掘.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计类数据挖掘和知识类数据挖掘

第六章 统计类数据挖掘和知识类数据挖掘 6.1 设计数据挖掘模型 6.1.1 数据挖掘方法论 6.1.2 构造和使用数据挖掘模型 6.2 统计类数据挖掘 6.2.1 统计分析类数据挖掘技术 6.2.2 统计分析工具 6.2.3 统计分析工具应用 6.3 知识类数据挖掘 6.3.1 知识发现系统的一般结构 6.3.2 知识发现技术及其运用 6.3.3 知识发现工具 6.4 MDX语言 6.1 设计数据挖掘模型 数据挖掘的基本机制是数据挖掘模型,这是一个抽象的对象,该模型以一系列结构行集 存储数据挖掘信息,并可使用各种工具轻松访问数据。构造和使用数据挖掘模型首先必必须 创建数据挖掘模型,并可以使用数据挖掘模型测览器以图形格式显示数据挖掘模型的内容。 6.1.1 数据挖掘方法论 1.数据取样(Sample) 2.数据特征探索、分析和预处理(Explore) 3.问题明确化、数据调整和技术选择(Modify) 4.模型的研发及知识的发现(Model) 5.模型和知识的综合解释和评价(Assess) 6.1.2 构造和使用数据挖掘模型 1.创建数据挖掘模型 创建新的数据挖掘模型包括确定模型类型、构建事例集将要使用的模型并选择模型构造 新数据挖掘模型所用的数据挖掘技术。 根据要处理的事例集数据的类型,可以使用两种类型的数据挖掘模型:关系数据挖掘模 型和OLAP数据模型。前者设计为处理传统的关系数据库表,而后者则设计为处理以多维 数据集形式保存的OLAP数据。 2.编辑数据挖掘模型 一般可以通过编辑器来编辑数据挖掘模型。数据挖掘模型的进程取决于挖掘模型的类 型。 (1)通过编辑器编辑关系数据挖掘模型 可以使用关系挖掘模型编辑器编辑关系数据挖掘模型的结构,该编辑器也可用来处理数 据挖掘模型和查看结果内容,允许更改数据挖掘模型的基本属性(如数据挖掘算法),显示 数据挖掘模型列(包括键列、输入列和可预测列)。 关系挖掘模型编辑器还可以显示构造事例集的表结构,显示事例和支持表。对于已培训 的关系挖掘模型,可以使用数据挖掘模型浏览器,以图形形式显示数据挖掘模型的内容。 (2)通过编辑器编辑OLAP数据挖掘模型 可以使用OLAP挖掘模型编辑器编辑OLAP数据挖掘模型的结构.而且可处理数据挖 掘模型并显示结果内容,更改数据挖掘模型的基本属性(如数据挖掘算法)及组成数据挖掘 模型事例集的维度、级别和度量值的属性。 如果OLAP数据挖掘模型已经过培训,则该编辑器还可以使用数据挖掘模型浏览器以 图形形式显示数据挖掘模型的内容。 3.培训数据挖掘模型 为提供预测性的结果,数据挖掘模型首先必须在称为“培训”的进程中采用已知数据。 在该进程中,数据被插入到未经过培训的数据挖掘模型中。这个进程并不将培训数据保存到 数据挖掘模型中,而是通过数据挖掘模型分析培训数据,找出以后可使用的规则和模式,以 确定预测列的图值并将统计信息作为数据挖掘模型内容保存。 4.查看数据挖掘模型 查看已培训数据挖掘模型的最简单方法是使用数据挖掘模型浏览器和相关性网络浏览 器,这些图形化工具以易于理解的图形界面显示数据挖掘模型的复杂内容(如决策树),并 图形化数据挖掘模型的内容。 图形化是指以易十理解的可视化格式显示复杂数据的过程,但在数据挖掘中实现却非常 困难。数据挖掘模型浏览器可以简化数据挖掘模型内容的图形化过程,而相关性网络浏览器 则可以使决策树数据挖掘模型中复杂关系的图形化变得易于理解。 5.对数据挖掘模型的其他操作 也可以为数据挖掘模型分配安全角色,以将对该模型及其预测能力的访问权限限制为特 定用户和组、当数据挖掘模型链接到相应的数据库时,将使用数据库角色决定是否允许访问 链接到数据库中的数据挖掘模型,这与在多维数据集中使用数据库角色类似。 6.2 统计类数据挖掘 统计技术是一个有着百余年历史,并有着广泛应用的技术。目前所使用的一些经典数据挖掘技术(如CART和CHAID等)都来自统计技术。在数据挖掘中的概率、独立性、偶然 性和过适应性等概念也都来源于统计技术。 6.2.1 统计分析类数据挖掘技术 统计类数据挖掘技术是数据挖掘技术中较为成熟的一种,主要包括数据的聚集与度量技 术、各种回归技术、聚类挖掘技术和最近邻域挖掘技术等。 1.数据的聚集与度量 2.各种回归技术 回归又包括线性回归和非线性回归。

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档