- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
 - 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
 - 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
 - 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
 - 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
 - 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
 - 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
 
                        查看更多
                        
                    
                数据挖掘概念与技术经济与工商管理学院邓克文二零零九年九月
 
第一课 分类
一、数据挖掘及知识的定义
  1、数据挖掘定义:从大量数据中提取或“挖掘”知识;
  2、数据挖掘技术:分类、预测、关联和聚类等;
  3、数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知识表示;
  4、知识定义:知识就是“压缩”-浓缩就是精华!
    1)Occam Razor:因不宜超出果之需!
    2)信息论:熵
    3)MDL准则:minimum description length
 
第一课 分类
三、SPSS软件及Logistic回归知识预备
  1、回归方法分类
多个因变量
(y1,y2,…yk)
一个因变量 y
 
第一课 分类
三、SPSS软件及Logistic回归知识预备
  2、回归方法适用前提
   1)大样本,样本量为自变量个数的20倍左右;
   2)因变量或其数学变换与自变量有线性关系;
   3)扰动项(误差项)符合正态分布;
   4)自变量间不存在诸如多重共线性等关系;
   5)误差项方差不变;
     等等。。。。。。。。
   
 
第一课 分类
三、SPSS软件及Logistic回归知识预备
  3、Logistic回归方法介绍
   1)Logit变换
    Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系,但由于P对X的变化在P=0或P=1的附近不是很敏感的,或说是缓慢的,比如像可靠系统,可靠度P已经是0.998了,即使再改善条件和系统结构,它的可靠度增长也只能是在小数点后面的第三位或第四位之后,于是自然希望寻找一个P的函数形式θ(P),使它在P=0或P=1附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用  来反映θ(p)是在P附近的变化是很适合的,同时希望P=0或P=1时,  有较大的值,因此取  =   ,即:
       
 
第一课 分类
三、SPSS软件及Logistic回归知识预备
  3、Logistic回归方法介绍
   2)Logistic回归
   设因变量是一个二分类变量,其取值为=1和=0。
影响取值的个自变量分别为       ,则Logistic变换如下式表示:
                          
                           
                          
 
第一课 分类
四、神经网络与Logistic回归优缺点对比
  1、神经网络优缺点
   1)优点:数据类型无要求,高度智能,强“鲁棒”性,可进行非     线性拟合,能容忍缺失值,异常值的出现等;
   2)缺点:“黑箱”过程导致知识结果难于解释。    
  2、Logistic回归方法优缺点
   1)优点:线性回归方程的知识结果使得所获知识易于解释;
   2)缺点:数据类型要求高,回归方法成立前提多,只适用于线性拟合,缺失值,异常值会导致结果精确度大为下降。
  3、二者区别:硬计算与软计算,知识表达方式不同
 
第二课 预测
一、相关概念
  1、神经网络的“过拟合”现象
   1)“过拟合”指的是神经网络对训练集进行训练的过程中,无法识别数据中的“噪音”,并且把“噪音”的影响毫无保留的存贮于网络参数(权重、偏置)中。“过拟合”会导致神经网络对测试集进行分类、预测时,产生不必要的偏差。
   2)解决“过似合”现象办法之一为N-fold交差验证。
  2、MSE、NMSE等概念的定义
   1)MSE:均方误差(注:与均方差的区别),其定义为误差平方和除以它的自由度
。
 
第二课 预测
一、相关概念
     2)NMSE定义:
      
     注:此处的方差  为样本总体方差。NMSE的物理意义为标准化的MSE。
     
 
第二课 预测
二、预测实验
  1、实验目的:
    1)理解分类与预测区别
     2)熟练使用神经网络软件NeuroSolutions解决预测问题。
     3)学会运用灵敏度分析,对属性进行灵敏度测量。
     4)学会通过多次训练模型,避免模型停止在局部最优。
   2、实验原理
     1)神经网络方法原理
         
     2)多元线性统计方法原理(注意什么是线性,其内涵是什么?)
       
    
     
 
第三课 聚类分析
一、聚类分析定义、特征、应用及评估
  1、定义:将物理或抽象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。
   1)聚类的方法类型
    (1)划分方法:K-平均和K-中心算法;
                您可能关注的文档
最近下载
- Altium Designer中英文技术词汇对照.pdf VIP
 - 江苏省常州市联盟校2023-2024学年高一上学期调研期中英语试卷.pdf VIP
 - 报废汽车回收利用课件.pptx VIP
 - 统编版道德与法治(2024)三年级上册第二单元 第5课《 走近科学家》第1课时 探索未知世界的人和科学家的品格PPT模板.pptx VIP
 - 新02J01工程做法-标准图集.docx
 - 小学安全教育主题班会 地震科普携手同行 课件(共24张PPT).pptx VIP
 - (正式版)DB61∕T 1159-2018 《建筑垃圾再生材料挤密桩施工技术规范》.pdf VIP
 - 2025陕西省从优秀村(社区)干部中考试录用乡镇(街道)机关公务员200人笔试备考题库及答案解析.docx VIP
 - 序贯器官衰竭评估(SOFA 2.0)评分 .pptx
 - upvc管件螺纹接头.pdf VIP
 
原创力文档
                        

文档评论(0)