网站大量收购独家精品文档,联系QQ:2885784924

数据挖掘概念与技术.ppt

  1. 1、本文档共34页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 数据挖掘概念与技术 经济与工商管理学院 邓克文 二零零九年九月 第一课 分类 一、数据挖掘及知识的定义   1、数据挖掘定义:从大量数据中提取或“挖掘”知识;   2、数据挖掘技术:分类、预测、关联和聚类等;   3、数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知识表示;   4、知识定义:知识就是“压缩”-浓缩就是精华!     1)Occam Razor:因不宜超出果之需!     2)信息论:熵     3)MDL准则:minimum description length 第一课 分类 二、神经网络知识预备   1、单层神经网络;        2、多层神经网络。 第一课 分类 三、SPSS软件及Logistic回归知识预备   1、回归方法分类 多个因变量 (y1,y2,…yk) 路径分析 结构方程模型分析 一个因变量 y 连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 时间序列因变量 (t) ---时间序列分析 生存时间因变量 (t) ---生存风险回归分析 第一课 分类 三、SPSS软件及Logistic回归知识预备   2、回归方法适用前提    1)大样本,样本量为自变量个数的20倍左右;    2)因变量或其数学变换与自变量有线性关系;    3)扰动项(误差项)符合正态分布;    4)自变量间不存在诸如多重共线性等关系;    5)误差项方差不变;      等等。。。。。。。。     第一课 分类 三、SPSS软件及Logistic回归知识预备   3、Logistic回归方法介绍    1)Logit变换     Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系,但由于P对X的变化在P=0或P=1的附近不是很敏感的,或说是缓慢的,比如像可靠系统,可靠度P已经是0.998了,即使再改善条件和系统结构,它的可靠度增长也只能是在小数点后面的第三位或第四位之后,于是自然希望寻找一个P的函数形式θ(P),使它在P=0或P=1附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用  来反映θ(p)是在P附近的变化是很适合的,同时希望P=0或P=1时,  有较大的值,因此取  =   ,即:         第一课 分类 三、SPSS软件及Logistic回归知识预备   3、Logistic回归方法介绍    2)Logistic回归    设因变量是一个二分类变量,其取值为=1和=0。 影响取值的个自变量分别为       ,则Logistic变换如下式表示:                                                                                   第一课 分类 四、神经网络与Logistic回归优缺点对比   1、神经网络优缺点    1)优点:数据类型无要求,高度智能,强“鲁棒”性,可进行非     线性拟合,能容忍缺失值,异常值的出现等;    2)缺点:“黑箱”过程导致知识结果难于解释。       2、Logistic回归方法优缺点    1)优点:线性回归方程的知识结果使得所获知识易于解释;    2)缺点:数据类型要求高,回归方法成立前提多,只适用于线性拟合,缺失值,异常值会导致结果精确度大为下降。   3、二者区别:硬计算与软计算,知识表达方式不同 第二课 预测 一、相关概念   1、神经网络的“过拟合”现象    1)“过拟合”指的是神经网络对训练集进行训练的过程中,无法识别数据中的“噪音”,并且把“噪音”的影响毫无保留的存贮于网络参数(权重、偏置)中。“过拟合”会导致神经网络对测试集进行分类、预测时,产生不必要的偏差。    2)解决“过似合”现象办法之一为N-fold交差验证。   2、MSE、NMSE等概念的定义    1)MSE:均方误差(注:与均方差的区别),其定义为误差平方和除以它的自由度 。 第二课 预测 一、相关概念      2)NMSE定义:             注:此处的方差  为样本总体方差。NMSE的物理意义为标准化的MSE。       第二课 预测 二、预测实验   1、实验目的:     1)理解分类与预测区别      2)熟练使用神经网络软件NeuroSolutions解决预测问题。      3)学会运用灵敏度分析,对属性进行灵敏度测量。      4)学会通过多次训练模型,避免模型停止在局部最优。    2、实验原理      1)神经网络方法原理   

文档评论(0)

lxm + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档