- 7
- 0
- 约3.46千字
- 约 19页
- 2017-10-02 发布于天津
- 举报
决策树方法在数据挖掘中的应用-Read
决策树方法在数据挖掘中的应用 KnowledgeSEEKER简介 KnowledgeSEEKER是一个由Angoss公司开发的基于决策树的数据分析程序。该程序具有相当完整的分类树分析功能。 KnowledgeSEEKER采用了两种著名的决策树分析算法:CHAID和CART算法。CHAID算法可以用来对于分类性数据进行挖掘。CART算法则可以对连续型因变量进行处理。Angoss公司在增强这些算法的用户友好性方面作了大量的工作。 优点:响应快,模型,文档易于理解,决策树分析直观,性能良好 缺点:决策树不能编辑打印,缺乏数据预处理阶段的函数,没有示例代码 应用行业案例: Frost National银行CRM收益率、客户满意度、产品功效 SASI公司利用其开发行业数据挖掘应用软件(零售行业) Montreal银行客户分片、越区销售模型、市场站的准备、抵押支付的预测、信用风险的分析 数据准备 使用的样例数据集是从一个团体健康检查中有关高血压的研究项目中得到的。Angoss公司已将这一数据集包括在产品演示中。 有关高血压研究方面的数据(表中给出数据集中各个数据列的取值范围及其含义说明) 数据准备 数据预处理: 需要标注的区域: Hypertension域中可以出现整数值1,2,3,这几个值将分别被标注为低,正常,高。 TypeOfMilk域中包含整数值1~5,将分别标注为纯牛奶、2%,脱脂牛奶,奶粉及根本不喝牛奶 处理导出型的数据域 字段Age中包含的值1,2,3分别表示32~50岁、51~62岁及63~73岁。然而,字段Age中通常包含的都是某个人的实际年龄而非整数值1,2,3,因此,字段Age中的值是在数据挖掘开始之前就已经导出了,即按照实际年龄的范围32~50岁、51~62岁及63~73岁对该字段选择适当的值。 定义研究对象 1、定义挖掘目标 在开始使用KnowledgeSEEKER之前,有必要定义出挖掘的目标。在给定的数据集的例子中展示了哪些饮食因素会对人的血压高低有关键性的影响。其挖掘的目标可以明确地描述为: 分析出饮食因素对血压偏低、正常及偏高所产生的影响。 定义研究对象 2、启动 定义研究对象 3、设置因变量 一开始,字段Hypertension就已经被自动设置为因变量。稍后,还将改变因变量的设置。打开bpress数据集之后将出现如图所示的屏幕 定义研究对象 图中的根结点对应的是因变量。在根节点中血压已经分别被分为3类:偏低、正常和偏高。我们现在要了解的是血压偏低、正常和偏高的人都分别具有哪些特征。从图中可以看出: 研究对象中有18%的人(即66个人)血压偏低 研究对象中有60%的人(即217个人)血压正常 研究对象中有21%的人(即77个人)血压偏高 建立模型 目前KnowledgeSEEKER已经构造出模型树的下一层分支。当然,模型树还可以自动生成出多层分支。 图中的模型树的下一层分支表明上一层的双亲节点是按年龄(age)进行分叉的。年龄只是影响血压的一个变量,但是在目前这个例子中,年龄似乎是导致一个人的血压是否偏高的最重要因素。 如图所示,研究对象按年龄分为以下3组: 32~50岁,51~62岁,63~73岁 它们分别对应于模型树的三个叶节点。 此外,还可以用除Age以外的其他字段为模型树创建新的叶节点。在模型树上通过指定其它字段以创建新的叶节点称为分叉。对于当前这个数据集,系统会自动发现12个分叉。 理解模型 1、观察其分叉 观察其分叉将使我们可以看到除年龄以外对血压还有影响的其他重要变量的作用。KnowledgeSEEKER可以计算出所有变量对血压影响的大小并将使它们按顺序排列起来。用另一个变量直接在根节点下面构造叶节点即可进入模型树的另一个分叉。这样,我们就可以很容易地观察到其他数据元素对血压的影响。 对于自动生成的每一个分叉所作的概述将为我们考虑下一步的研究方向提供有益的线索。很明显,上面所获得的信息中有一些符合我们的预先估计。例如,一个人年龄越大,患高血压的可能性也就越高;一个人参加体育活动越多,换高血压的可能性也就越低。这些都是我们预先估计到的。然而,我们从数据集中也发现了一些预先没有估计到的结果,如人的身高与其高血压之间的关系就是我们预先没有估计到的。 理解模型 2、进入特定分叉 3、扩展模型树 以smoking为分叉变量构造的模型树
您可能关注的文档
- 众安在綫财产保险股份有限公司章程-AASTOCKScom.PDF
- 优化小学英文学与教的一些策略-教育局.PPT
- 会员大会学生议会行政会会员监察会-新纪元大学学院.PDF
- 会增大化学反应速率减小反应物的浓度.PPT
- 优秀平台及MOOC选学情况学堂在线-安徽高校研究生信息素养夏令营.PPT
- 优雅治感冒精油.DOC
- 会展产业调查与会展产业规模评价-MEETTAIWAN.PDF
- 会展场区采用LED照明结合无线智能控制-低压开关柜.PDF
- 会计真题及答案.DOC
- 企点服务FAQ-腾讯.PDF
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
最近下载
- 05G359-3悬挂运输设备轨道标准图集.pdf VIP
- 新学期教师培训会,校长发言:明边界守初心,知尺度有温度,让教育履职既合规又暖心.doc VIP
- 湖南省长沙市第一中学2024-2025学年高二上学期语文1月期末考试试卷(含答案).pdf VIP
- 2025年秋季学期学校全面工作计划.doc VIP
- T∕CHAS 10-2-22-2023 中国医院质量安全管理 第2-22部分:患者服务 疼痛治疗.pdf
- T_CNFMA B036-2024 户外林业机械 以锂离子电池为动力源的步进式松土机.pdf VIP
- T_CCTAS 237-2025 城市轨道交通市域快线车辆运营技术规范.pdf VIP
- 广告策划与创意(第2版):网络广告创意PPT教学课件.pptx
- 人体解剖学试题及答案.docx VIP
- 最后倒计时最后倒数(The Final Countdown) 高清钢琴谱五线谱.doc VIP
原创力文档

文档评论(0)