《数据仓库与数据挖掘》(演示稿)第1~3章.pptVIP

  • 1
  • 0
  • 约1.29万字
  • 约 84页
  • 2019-09-06 发布于广东
  • 举报

《数据仓库与数据挖掘》(演示稿)第1~3章.ppt

* 预测模型 预测模型(Predictive Modeling):所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。 建立预测模型的常用方法: 回归分析 线性模型 关联规则 决策树预测 遗传算法 神经网络 * 关联分析 关联(Association)分析:关联规则描述了一组数据项之间的密切度或关系。关联分析用于发现项目集之间的关联。在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则,而关联分析主要就是对强规则的挖掘。 关联规则挖掘近几年研究较多。现在,关联规则的挖掘已经从单一概念层次关联规则的发现发展到多概念层次的关联规则的发现,并把研究的重点放在提高算法的效率和规模可收缩性上。它广泛地运用于帮助市场导向、商品目录设计客户关系管理)(CRM)和其他各种商业决策过程中。 关联分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它们的各种改进算法等。另外,对于大规模、分布在不同站点上的数据库或数据仓库,关联规则的挖掘可以使用并行算法,如:Count分布算法、Data分布算法、Candidate 分布算法、智能Data分布算法(IDD)和DMA分布算法等。 * 分类分析 分类(Classification)分析:所谓分类是根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。类的描述可以是显式的,如用一组特征概念描述;也可以是隐式的,如用一个数学公式或数学模型描述。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。 分类分析的常用方法: 约略(Rough)集 决策树 神经网络 统计分析法 * 聚类分析 聚类(Clustering)分析:所谓聚类是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近,不同分组之间的数据相差较大。好的聚类方法可以产生高质量的聚类,保证每一聚类内部的相似性很高,而各聚类之间的相似性很低。聚类分析的核心是将某些定性的相近程度测量方法转换成定量测试方法。采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。 聚类分析的常用方法: 随机搜索聚类法 特征聚类 CF树 * 序列分析 序列(Sequence)分析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。例如,它可以导出类似“若ATT股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。 * 偏差检测与模式相似性挖掘 偏差检测(Deviation Detection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。 模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。 * Web数据挖掘 Web数据挖掘:万维网是一个巨大的、分布广泛的和全球性的信息服务中心,其中包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。Web数据挖掘包括Web使用模式挖掘、Web结构挖掘和Web内容挖掘等。 Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。 Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。 Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。 基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究等。 * 第2章 数据仓库的数据模型与数据组织 本章要点 数据仓库的数据模型 概念模型 逻辑模型 物理模型 数据仓库数据组织的基本概念 粒度 维度 元数据 数据分割 数据仓库的数据组织 数据仓库的数据组织方式 数据仓库的数据存储组织 * 数据仓库中的数据组织 高度综合级 轻度综合级 当前综合级 早期细节级 多级数据 * 数据仓库的数据模型- 与

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档