- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 数据挖掘概念与技术经济与工商管理学院邓克文二零零九年九月 第一课 分类 一、数据挖掘及知识的定义 1、数据挖掘定义:从大量数据中提取或“挖掘”知识; 2、数据挖掘技术:分类、预测、关联和聚类等; 3、数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知识表示; 4、知识定义:知识就是“压缩”-浓缩就是精华! 1)Occam Razor:因不宜超出果之需! 2)信息论:熵 3)MDL准则:minimum description length 第一课 分类 二、神经网络知识预备 1、单层神经网络; 2、多层神经网络。 第一课 分类 三、SPSS软件及Logistic回归知识预备 1、回归方法分类 多个因变量 (y1,y2,…yk) 路径分析 结构方程模型分析 一个因变量 y 连续型因变量 (y) --- 线性回归分析 分类型因变量 (y) ---Logistic 回归分析 时间序列因变量 (t) ---时间序列分析 生存时间因变量 (t) ---生存风险回归分析 第一课 分类 三、SPSS软件及Logistic回归知识预备 2、回归方法适用前提 1)大样本,样本量为自变量个数的20倍左右; 2)因变量或其数学变换与自变量有线性关系; 3)扰动项(误差项)符合正态分布; 4)自变量间不存在诸如多重共线性等关系; 5)误差项方差不变; 等等。。。。。。。。 第一课 分类 三、SPSS软件及Logistic回归知识预备 3、Logistic回归方法介绍 1)Logit变换 Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系,但由于P对X的变化在P=0或P=1的附近不是很敏感的,或说是缓慢的,比如像可靠系统,可靠度P已经是0.998了,即使再改善条件和系统结构,它的可靠度增长也只能是在小数点后面的第三位或第四位之后,于是自然希望寻找一个P的函数形式θ(P),使它在P=0或P=1附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用 来反映θ(p)是在P附近的变化是很适合的,同时希望P=0或P=1时, 有较大的值,因此取 = ,即: 第一课 分类 三、SPSS软件及Logistic回归知识预备 3、Logistic回归方法介绍 2)Logistic回归 设因变量是一个二分类变量,其取值为=1和=0。 影响取值的个自变量分别为 ,则Logistic变换如下式表示: 第一课 分类 四、神经网络与Logistic回归优缺点对比 1、神经网络优缺点 1)优点:数据类型无要求,高度智能,强“鲁棒”性,可进行非 线性拟合,能容忍缺失值,异常值的出现等; 2)缺点:“黑箱”过程导致知识结果难于解释。 2、Logistic回归方法优缺点 1)优点:线性回归方程的知识结果使得所获知识易于解释; 2)缺点:数据类型要求高,回归方法成立前提多,只适用于线性拟合,缺失值,异常值会导致结果精确度大为下降。 3、二者区别:硬计算与软计算,知识表达方式不同 第二课 预测 一、相关概念 1、神经网络的“过拟合”现象 1)“过拟合”指的是神经网络对训练集进行训练的过程中,无法识别数据中的“噪音”,并且把“噪音”的影响毫无保留的存贮于网络参数(权重、偏置)中。“过拟合”会导致神经网络对测试集进行分类、预测时,产生不必要的偏差。 2)解决“过似合”现象办法之一为N-fold交差验证。 2、MSE、NMSE等概念的定义 1)MSE:均方误差(注:与均方差的区别),其定义为误差平方和除以它的自由度 。 第二课 预测 一、相关概念 2)NMSE定义: 注:此处的方差 为样本总体方差。NMSE的物理意义为标准化的MSE。 第二课 预测 二、预测实验 1、实验目的: 1)理解分类与预测区别 2)熟练使用神经网络软件NeuroSolutions解决预测问题。 3)学会运用灵敏度分析,对属性进行灵敏度测量。 4)学会通过多次训练模型,避免模型停止在局部最优。 2、实验原理 1)神经网络方法原理
您可能关注的文档
最近下载
- 湖南省新高考教学教研(长郡二十校)联盟2024-2025学年高三上学期第一次预热演练物理试卷(含答案).pdf VIP
- 2025年长沙民政职业技术学院单招职业倾向性测试题库精选.docx VIP
- 2012款13东风本田艾力绅ELYSION_汽车使用手册用户操作图解驾驶指南车主车辆说明书电子版.pdf
- 专题01:考纲词汇01-高考英语3500词精背精练(含答案).docx
- 脑卒中后抑郁课件篇.ppt
- 2025年1月浙江首考高考英语试卷真题完整版(含答案+听力原文).pdf
- 2024年四川省成都市武侯区中考语文二诊试卷.doc
- 2025年四川省绵阳市中考二模英语试题.pdf VIP
- 《资治通鉴》【全译本】.pdf
- 公路养护工技师考试试题1.doc
文档评论(0)