数据挖掘模型介绍.ppt

;*;数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术。 3个步骤:数据准备、规律寻找和规律表示。 挖掘任务:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 由Daimler Chrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法论() CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行业数据挖掘标准流程)注重数据挖掘技术的应用。CRISP-DM过程模型从商业的角度给出对数据挖掘方法的理解。目前数据挖掘系统的研制和开发大都遵循CRISP-DM标准,将典型的挖掘和模型的部署紧密结合。;数据挖掘--CRISP-DM模型;数据挖掘(Data Mining)技术主要无监督和有监督两大类。无监督数据挖掘:不区别对待各个变量,而只是考察变量间的关系。有监督数据挖掘:从数据中获得深度细致的信息,根据一些变量建立模型,来预测另一些变量。 有监督数据挖掘方法:聚类分析、因子分析、主成分分析、神经网络、预测等; 无监督数据挖掘方法: 关联规则挖掘、时序挖掘、偏差分析等。 ;;Building Tree;决策树进行分类步骤;决策树算法;伪代码(Building Tree);信息增益度度量;训练集(举例);使用信息增益进行属性选择;使用信息增益进行属性选择;使用信息增益进行属性选择;使用信息增益进行属性选择;使用信息增益进行属性选择;使用信息增益进行属性选择;Decision Tree (结果输出);1决策树;1决策树;1决策树——案例;1决策树——案例;1决策树——案例;聚类分析无处不在;聚类分析无处不在;;聚类分析原理介绍;聚类分析条件;;;2聚类分析—举例说明;;;;;;;;;;;;; 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常采用预测方差来度量。预测的主要方法有统计学中的回归分析等等。 ;任何事物的变化都与其他事物是相互联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。 函数关系:当一个变量x取一定值时,另一变量y可以按照确定的函数公式取一个确定的值,记为y?=?f(x),则称y是x的函数,也就时说y与x两变量之间存在函数关系。 统计关系:衡量事物之间或者变量之间的线性相关强弱程度用适当的统计指标表示出来,称为相关分析。比较直观的如散点图,但不精确! 统计线性相关关系度量:回归模型 ;回归模型条件: 1、确实存在显著相关关系 2、确实存在直线相关关系 3、应根据最小平方法 4、解释变量为非随机变量 5、同方差:各随机扰动项的方差相同 6、无自相关:各随机扰动项互不相关 7、误差项与解释变量不相关 8、随机扰动项均服从正态分布 9、残差项符合正态分布、被解释变量符合正态分布 数据要求: 一般解释变量和被解释变量为连续性变量,但对于离散型与定性变量有特殊处理方法 ;回归大类:线性回归、多元回归和非线性回归;4.预测;4. logit分类预测模型—案例;4. logit分类预测模型—案例;5.时序模式;5.时序模式;6.主成分分析;;;如果 N个样品中的每个样有p个指标x1, x2,…,xp,经过主成分分析,将它们综合成m个综合变量,即;6.因子分析;;;已知纽约上市的三只化学产业证券(AC、DP、UC)和两只石油产业证券(EX、TE)100周的收益率调查资料。各证券的收益率依次用X1、X2、X3、X4、X5表示,且样本的平均收益率和相关矩阵R如下,要求对证券收益率做主成分分析和因子分析,并解释其意义。;;主成分分析结果:;因子分析结果(1);;因子分析结果(3);注意: 1、因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义; 2、主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。 主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。;神经网络(Neural Networks,NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。神经网络的发展与神经科学、数理科学、认知科学、计算机科学、人工智能、信息科学、控制论、机器人学

文档评论(0)

1亿VIP精品文档

相关文档