教育系统中多变量分析及其科学应用.pptVIP

教育系统中多变量分析及其科学应用.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(2)用于分析的数据 (3)预测式 (4)预测效果 (5)要因分析 (6)关于一周和事件日的预测 3.问卷设计与分析 (1)假期旅游方案 (2)问卷设计 (3)问卷结果 (4)用于分析的数据 (5)预测式 (6)要因分析 结论: 季节:初秋 地点:北海道 住:包早、晚餐饭店,5天 全程自由活动 费用:6万(日元) (5)以Ward法聚类 不同的聚类算法有不同的聚类结果 2. 八个变量的聚类 (1)变量数据 (2)树状图 (3)分类 3.七个变量聚类 4.三个变量 变量数不同,聚类结果不同! 五、马氏距离及其应用(判别分析) 1.相关的二维数据 (1)数据 (2)散布图 (3)计算马氏距离 马氏距离 (4)基准空间的马氏距离分布 2.不相关的数据 (1)数据 (2)散布图 (3)判别分析 不明数据 马氏距离 直方图 3.多个变量数据 (1)数据 (2)马氏距离 (3)不明公司的马氏距离 (4)相关矩阵 六、数量化Ⅰ类应用 1.预约数的预测 (1)数量化Ⅰ类模型 特点: 变量为定性的信息 利用虚拟变量的回归分析 (2)数据 (3)改写后的数据 (4)削减类别 (5)预测式 (6)预测 (7)要因分析 各种因素中最具影响的因素指标: 该因素中回归系数的范围。 2.超市顾客数预测 (1)顾客数据 数据挖掘及其应用 傅德荣 内 容 一、数据挖掘概述 二、DM与教育 三、教育应用 四、基于聚类的DM 五、马氏距离及其应用(判别分析) 六、数量化Ⅰ类应用 预约数的预测 超市顾客数预约 问卷设计与分析 一、数据挖掘概述 1.数据挖掘(Data Mining)定义 从大量数据中发现信息、看法、知识、假设、课题的处理和方法。 KDD(Knowledge Discovery in Database) DM是KDD的挖掘、发现部分。 发掘数据中内在的规则、知识 专家系统:抽出专家头脑中的知识,以便利用 DM:发掘数据中内在的、非明示的知识。 期待:信息社会中洪水般信息带来的诸问题的解决对策。 2. DM的处理过程 (Ⅱ)DM的处理过程 (1)数据仓库:获取、选择相关目的数据 (2)对数据进行重要的前期处理、变换 (3)从数据中发现知识 (4)对多发现的知识解释、评价、应用 这个过程可认为是知识发现的过程。 有时对(3)也称之为DM 。 从(1) (4)不是单纯的直线进行,在每一处理阶段为了达到满意的结果,还需要返回前面的阶段,这个处理过程可能需要多次反复。 (Ⅲ)DM处理的说明 一、数据的获取、选择 理解对象领域的性质 具备对象领域的基本知识 设定DM的目标 对象领域的数据集中在多个体内,并对这些库集中管理——称之为数据仓库。 对库内数据集合挖掘时应基于选定的目标。 计算机支持是导致DM成功的重要处理。 二、数据的预处理 从目标数据中消除杂音、异常值 连续数据离散,分类离散数据连续化、修补。 单位变化,坐标变换规范化 根据DM算法的要求 数据变换 预处理数据应是能符合知识发现算法要求的数据,所以数据变换可考虑到入预处理,即预处理应包含直接数据变换及其以前的全部过程。此外,还应包括属性的选择,属性的抽出,属性的建构,事例的选择。 许多知识发现的算法是以表形式的数据为对象的,数据变换的记过,往往是以表形式给出的。然而,文本信息,Web信息,判别是属性信息、药物信息等多为表形式的信息,它们是一般的表形式信息,需要别的变换处理。 三、知识发现 利用知识发现的算法,可从数据中抽出我们感兴趣的知识的候补(准知识)。利用的手法主要是统计的方法,机器学习的方法、数据挖掘的传统方法。 探索空间通过输入各种方法所规定的参数的选择多规定。 其结果,可得到概念的描述,分类的规则、相关的规则。决策树、聚类,针对不同性质,不同数量的数据,应使用不同的算法。 四、数据的解释与评价 抽出的准知识,经过解释、评价可得到完全的知识。若在此阶段还得不到这样的宏观知识,则应返回以上的步骤。究竟返回到哪一步只有在处理的过程中方能确定,也有可能返回新的数据收集。对于所得到的知识是否是所需的有用知识,应对照最初设定的标准来确认。 数据挖掘的结果及其解释应置于重要的未知,这是DM的重要特性,用户(专家)不能理解的知识是不能使用的。 上述的步骤中,许多研究集中在知识的发现算法上。然而,在DM中,最重要的是数据的获得、选择、预处理。DM中,数据是以一定的形式存放在数据库中的,这是DM的前提,用于DM 的形式,在这个处理数据比例的70~70%,能否实现有用的、良好的知识的发现与DM算法有关、与有效数据的收集有关。有效数据的准备是DM成功的重要保障。 获取数据应基于DM 的目的。在DM最初,确定的目的设定有时是比较困难的。所收集的数据可能是没有准确的目的,单在使

文档评论(0)

sandaolingcrh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档