- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库跟数据挖掘--决策树实验文档
实验3 决策树
一、实验目的
了解决策树的基本概念。
掌握决策树挖掘分析的操作步骤。
实验内容
对 三国志4 武将数据.xls 中的数据进行决策树分析。
实验仪、设备
计算机、visual studio 2008、分析用数据、数据库服务
实验步骤
准备工作:三国志4 武将数据.xls 数据导入数据库中。
打开visual studio 2008,新建项目,选择商业智能项目,analysis services项目
图1 新建项目
在解决方案资源管理器中,右键单击数据源,选择新建数据源
图2 数据源向导
在该界面中选择新建,进行数据源具体设置
图3 新建数据源
在服务器名中填写要连接的数据库服务器名称,或者单击服务器名右方下拉按钮进行选择;勾选使用windows身份验证 ;选择或输入一个数据库名中填写将要分析数据所在的数据库或者单击右方下拉按钮进行选择
图4 数据源具体设置
确定后配置完的数据源已显示在窗口上,继续下一步
图5 完成数据源具体设置
勾选使用服务账户,继续下一步
图6 模拟信息设置
数据源名称保持默认,完成
图7 完成数据源设置向导
在解决方案资源管理器中,右键单击数据源视图,选择新建数据源视图
图8 数据源视图向导
下一步
图9 选择数据源
在可用对象中,将要分析数据所在表添加到包含的对象中,继续下一步
图11 选择包含对象
默认名称,完成
图12 完成数据源视图向导
在解决方案资源管理器中,右键单击挖掘结构,选择新建挖掘结构
图13 数据挖掘向导
勾选从现有关系数据库或数据仓库,继续下一步
图14 选择定义方法
选择microsoft 决策树,继续下一步
图15 创建数据挖掘模型结构
下一步
图16 选择数据源视图
勾选事例,继续下一步
图17 指定表类型
在键列勾选序号码,在输入列勾选出身、国别、魅力、统御、武力、政治、智慧、忠诚,在可预测列勾选身份,继续下一步
图18 指定定型数据
下一步
图19 指定内容和数据类型
勾选允许钻取,完成
图21 完成数据挖掘向导
单击挖掘模型查看器
图22 完成设置
询问是否部署项目,是
图23 部署项目
询问是否继续,是
图24 处理模型
单击运行
图25 运行挖掘项目
待处理完成后,关闭
图26 处理结果
关闭处理窗口后,就可在挖掘模型查看器的决策树中看到系统经过分析得出的结果
图27 分类关系图
依赖关系网络:
图27 分类剖面图
在挖掘模型中,右键单击挖掘模型可以设置算法参数
图28 算法参数
算法参数的意义
COMPLEXITY_PENALTY:禁止决策树生长。减少此值会增加拆解的可能性,而增加此值则会减少拆解的可能性。
FORCE_REGRESSOR:强制算法使用的数据行作为回归公式的回归输入变量,而不考虑其在算法计算中的重要性为何。
MAXIMUM_INPUT_ATTRIBUTES:指定在叫用功能选项之前,算法可以处理输入属性的最大数目。
MAXIMUM_OUTPUT_ATTRIBUTES:指定在叫用功能选项之前,算法可以处理输出属性的最大数目。
MINIMUM_SUPPORT:指定分叶节点必须包含的最小个例数目
SCORE_METHOD:指定用来计算分割准则的方法。
SPLIT_METHOD:指定用来节点分杈的模式。
图29 设置算法参数
设定完算法后,再次点击挖掘模型查看器进行数据处理,处理完成后所得出的结果就是设置算法后的结果。
实验心得体会
通过这次关于决策树的实验,让我对决策树的应用有了相对具体的理解,并且为决策树的学习提供了一个好的铺垫,在学习过程中,决策树中的算法由于利用系统本身,所以并没有具体理解ID3这个算法的具体运转环节,但是有了这次实验的铺垫,使自己能够更加容易之后的ID3算法的学习。
思考题
决策树对数据分类的正确率是否可以达到100%?
答:不可以达到100%
决策树一般都是自上而下来生成的。决策树由一个决策图和可能的结果(包括资源成本和风险)组成,用来创建到达目标的规划。每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,所以称作决策树。
对于那些各类别样本数量不一致的数据,在决策树当中信息增益的结果偏向于那些具有更多数值的特征。决策树的这种明确性可能带来误导。
决策树分类准确率极限理论:
定理1:有经验风险和结构风险时,决策树分类准确率的极限不存在。
定理2:无经验风险、有结构风险时,决策树分类准确率的极限不存在。
定理3:有经验风险、无结构风险时,决策树分类准确率的极限存在。
定理4:无经验风险和结构风险时,决策树分类准确率的极限存在。
以上定理都认可100%是决策树分类准确率的上边界,0%是其下边界;“不存在”的意义并不是无确定上边界,而是在[0%,100%]内五确定上
文档评论(0)