数据挖掘答辩.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘答辩.ppt

* * * 通过实验对结果进行修正 左图和钙相对应的被测儿童编号,血红蛋白和钙的测量值之间的相关性较差,钙的测量结果不能反映出血红蛋白的测量结果,所以血红蛋白指标必须测量。 * 通过实验对结果进行修正 综上所述,我们通过采样实验对数据挖掘的结论进行了修正,即在评价儿童营养状态时,可在微量元素钙、镁、铁、铜4个指标中选择任意一个,再加上微量元素锰和血红蛋白即可,其效果和六个指标都测定效果基本是等价的。在原结论的基础上增加了血红蛋白测试指标,使得测量结果更加精确可信。 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 数据挖掘技术 在婴幼儿营养状况评估中的应用研究 * 数据挖掘技术 在婴幼儿营养状况评估中的应用研究 立题依据 使用的数据挖掘理论知识 使用的工具介绍 原始数据说明 具体实施步骤 通过实验对结果进行修正 * 立题依据 问题引入: 1、近年市场上出现大量的假冒伪劣的婴幼儿奶粉,导致食用的婴幼儿出现的营养不良现象,严重的甚至导致婴幼儿死亡。 2、在我国的西部农村地区,医疗卫生系统还不完备,难以对婴幼儿进行全面细致的体检。 3、一般评价婴幼儿营养状态的指标是血液中血红蛋白与微量元素的含量。但是对微量元素的测定的成本高,耗时长。 * 立题依据 对策:对大量的婴幼儿营养状况检查得到的数据的进行分析,希望通过聚类分析方法筛选出代表性的营养状态指标,以便更经济、快捷的评价婴幼儿的营养状态。 具体方法:对数据样本进行分层聚类分析,采用相关系数测量技术,研究各个变量之间的相关系数,从中选出典型变量。从而得出评价婴幼儿营养状态的代表性指标。 * 数据挖掘技术 在婴幼儿营养状况评估中的应用研究 立题依据 使用的数据挖掘理论知识 使用的工具介绍 原始数据说明 具体实施步骤 通过实验对结果进行修正 * 使用的数据挖掘理论知识 运用数据挖掘中聚类分析的知识。对原始数据中的几个测量指标进行分组,使得同一个组内指标之间具有较高的相似度,而不同组内指标差别较大。根据原始数据的类型以及应用目的,我们选择层次方法。对原始数据进行层次分解,采用凝聚的方法,开始时将每个对象作为单独的一个组,然后相继的合并相近的对象和组,直到所有的组合并为一个,或是达到一个中止条件。 * 数据挖掘技术 在婴幼儿营养状况评估中的应用研究 立题依据 使用的数据挖掘理论知识 使用的工具介绍 原始数据说明 具体实施步骤 通过实验对结果进行修正 * 使用的工具介绍 使用工具是SPSS(Statistics Package for Social Science) 。 它是目前世界上最优秀的统计分析软件之一。SPSS已广泛应用于自然科学和社会科学中 。 * 数据挖掘技术 在婴幼儿营养状况评估中的应用研究 立题依据 使用的数据挖掘理论知识 使用的工具介绍 原始数据说明 具体实施步骤 通过实验对结果进行修正 * 原始数据说明 原始数据是2004年某地区10029名儿童血液中血红蛋白(g/100ml)与微量元素(ug/100ml)测定数据。由于微量元素的测定成本高、耗时长,故希望通过聚类分析筛选出代表性指标,以便更经济、快捷的评价儿童的营养状态。 * 原始数据说明 * 数据挖掘技术 在婴幼儿营养状况评估中的应用研究 立题依据 使用的数据挖掘理论知识 使用的工具介绍 原始数据说明 具体实施步骤 通过实验对结果进行修正 * 具体实施步骤 建立数据文件,将原始数据输入工具中。在工具中选择层次聚类分析方法对原始数据进行分析。 根据需要指定聚类方法、距离测度的方法、对数值进行转换方法,即标准化数值的方法何对测度的转换方法。 * 具体实施步骤 聚类方法 : Between-groups linkage:类间平均连锁法。合并两类的结果,使所有的两两项对之间的平均距离最小。项对的两个成员分别属于不同的类。 距离的测度方法 : 用两点间的距离来决定是否合并两类 。 Pearson correlation:相关系数距离,适用于R型聚类(对研究对象的观察指标进行分类)。 * 具体实施步骤 通过SPSS工具对数据进行层次聚类分析的结果如下: * * 具体实施步骤 计算出原始数据各个测定指标之间的欧氏相关系数平方矩阵,如下表所示: * 具体实施步骤 根据各变量之间的相关系数进行类间平均锁链法的合并。 第一步、将钙和镁合并,它们之间的相关系数最大,为0.999; 第二步、将铁和第一步合并项进行合并,它们之间的相关系数为 (0.998+0.998)/2=0.998; 第三步、将血红蛋白和第二步合并项进行合并,它们之间的相关系数为 (0.976+0.979+0.982)/3=0.979; 第四步、将铜和第三步合并项进行

文档评论(0)

gtez + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档