- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
出决策树模型的建薙
附声树与判别函数的比仁
、算方法
a決策树及随机效应模型”
a
M牛包应用
提供涯鼬勺K的常用方法
策树的数据分析是吨种树形结构来表现数必 各 量影响程度的预测模型,利用树上各级节点分 葭自动确认和评估各个类别。
L H决第树能从一个或多个预测变量中,针对类别因 变量的选项,预测岀个例的趋势变化关系等,也 可以由结果反推原因。
n系列的选求
li提供分类与预测的常用方法。通过
. v+nnl^s分类,可由落入相同结点的 径上的规则集来扌隹测相同的结果。
.… 树的主要功能般已知分类的个体来—;
b怎 ° 乙, |
■LA1U (卞力冃功艾县检测法)决策树只限于处 分类变量,如果是连续变量必须采用区段的方 罷先转换数据为类别变量,才可以使用。
E | 11
声驚權量都计算其所有可能的分割点, :找出割点。
(疔比较客预测騒:在“最佳分割方式”下的 间方差,然后找出-个组间方差最大的变量, 最佳预测变量。
)用最佳预测变量的最佳分割方式把h -给険 ■HW成两组
将分割后的每一组作为样本,重复前述分 割步骤
重复分割,直到所有变量都被用完为止。
量,计算以单变量分裂为基础的
国数的比较如表10-1所示
预测正确率
成本指的是个例被混合分类时的比例
迪4计
各分类包含的个例数的比例相等或 的个例数目相等或相近,就可以
H
计SB海
gi
喻模蟹,、提供两个选项可以控制停止分 汽又小n (最纟冬节点中所包含的个例数)
)设置对象的片霞
IM计躺海晋大
谙I」过程中,需要确定决策树的适当
[策树模块可提供几种不同的选取适当大小的策 3可择一或同时使用。如表10-3所示。
矿決策阿(Decision Tree)是在已知各种情况发生
椚二的浪础Mil过构成决策树来求取;?现值的 ■望值大于等丁零的概率,评价项目风险,判断 ,嘰其可行性的决策分析1方法,是直观运用概率分析 I.的一-种图解法。由于这轴决策分支画成图形很像 果树的枝干,故称决策树。在机器学习中,决 弼是一个预测模型,他代表的是对象属性与对 象穆之间的一种映射关系。
E Entropy =系统的凌乱程度,使用算法ID3, C4.5 和C5.0生成树算法使用癇。这一度量是基于信息 学理论中爛的概念。
冋决箝树是数据挖掘分举邕決的一个重枣方決°在
r | p 匕
h ByEr^M5£cf 観誉倉I
决策树是一个预测模型;他代表
的机器学习技术叫做
策祈包含三需趣的节点: 回决策节点:通常用矩形框来表式 备机会节点:通常用圆圈来表式 回債结点:通常用三角形来表示
每个决策树可以依靠对源数据库的分割进行数据 测歳。
决策树同时也可以依靠计算条件概率来构造
决策树如果依靠数学的计算方法可以取得更加理 禺的效果。数据库已如下所示:
t (x,y) = (xl, x2, x3..., xk, y)
為关的变量Y表示我们尝试去理解,分类或者 更一般化的结果。其他的变量xl, x2, x3等则是 帮助我们达到目的的变量。
预先剪枝后剪枝剪枝有分预先剪枝中设定一个指标,当 这样做容易产生“视 厅止分支,使得节点N成为 其后继节点进行“好”的分支 O不严格的说这些已停止的
预先剪枝后剪枝
剪枝有分
预先剪枝
,导致产生的树不纯度降差 分靠近根节点。
后剪枝充分生长,直到叶节点都有最 1,因而可以克服“视界局限” O J成对叶节点考虑是否消去它们, >人满意的不纯度增长,那么执
后剪枝
]的公共父节点成为新的叶节点。 亍点的做法和节点分支的过程恰 W后叶节点常常会分布在很宽的 宇非平衡。后剪枝技术的优点是 L效应,而且无需保留部分样 所以可以充分利用全部训练集
〔的计算量代价比预剪枝方法大 ::样本集中,不过对于小样本的
療嗨弊场的需要,某地准备扩大电视机乞产。 帀场预测表明:疋品销路好的概率为0.7;销路
的概率痂
孑选方案有三个:
一个方案是建设大工厂,需要投资600万元, 」吏用10年;如销路好,每年可赢利200万元; 如韬路不好,每年会亏损40万元。
0第二个方案是建设小工厂,需投资280万元;如 销路好,每年可赢利80万元;如销路不好,每年 也会赢利60万元。
0第三个方案也是先建设小工厂,但是如销路好,C /rr 匚二 4宀 7土 4宀 7丰 日予 +H. 4 r\r\ izr 二1 二T /士 中 ft/tt
/T7X
/T7X / ?A . I
各点期望:
点②:0.7 X 200 X 10+0.3 X (-40) X10-
600 (投资)=680 (万元)决策树分析
⑤(930万元)与点⑥(560万元)相比, 点⑤的期望利润值较大,因此应采用扩
建的方案,而舍弃不扩建的方案。把点
rz页测。H
rz
页测。
H
ise Miner模块
文档评论(0)