- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
——小暖;安装成功后,See5-demo\Samples提供了几组数据可供使用:
.data:训练使用数据
.names:训练数据的说明文档
.test:评价使用数据
以Samples中的实验为例,使用数据为anneal.data , anneal.names , anneal.test 。;对anneal.data中数据的说明,主要有用信息为实例个数,属性个数,属性信息说明和待分类别说明。
‘-’在data文件中表示为’N/A’;此文档中保存了即将用于分类的数据,格式严格遵照anneal.names中的描述。
在试用版中,能够处理的实例个数不超过400条。
按照names文档中的说明,每条实例应该有38条属性。但是真实情况是多出了一条。这条被认为是该实例的真实类别,但不用于分类,只用于评价。
Anneal.test是格式与data相同,用于精度评价的文档。
;界面介绍;导入anneal.data文件后,点击按钮 ,弹出有图所示对话框。对话框中的默认选项足以满足分类要求。可勾选处将在后续讲解。点击OK,生成分类树。
根据勾选不同选项,得到的output文件内容会有所改变。将在后续讲解。;随机弹出如下窗口,并产生了新的两个文件:;Decision tree;;1. (n , lift x)
n:根据规则分到该类别的
训练样本数;
m:被错分的训练样本数。
2. 分类的可信度
对于一个实例来说,可能有多条规则都对其适用。在这种情况下,SEE5采用了一种投票的方式。在所有使用规则中投票,以可信度作为权重。计算综合后,以投票最高的类为准。
通常规则数会小于叶子层数,本例数为7和13。;通常规则集分类器的适用性会优于决策树。(以误差的相对大小来衡量)
本例中:
此外,属性使用率也有所区别。
在后者中,只要有某个条件
适用于某一实例,这个条件
中的属性就会被使用到。;Adaptive boosting:自适应提升。为一次分类生成多个分类器,由分类器进行投票得到最终分类结果。在初次生成分类器后,系统检测到错分的实例,并在下一次构造分类器时对这些错分实例给予更大关注(权重),在多次重复操作后得到最优的分类器。
Trail: 构造分类器个数。;在前边两种分类方法中,都只用到了部分属性。此选项能够自动选择有用的属性来构造decision tree或rulesets。
剔除了29个属性,剩余被
采用属性按照重要性依次
排列。 属性前的百分数,
例如567%代 表若该属性
family被剔除,则分类精
度会变为原精度1.5%的
567%倍。;在某些应用中,我们希望分类的决定能随着属性值的变化而更缓慢的变化。此选项将阈值分割
为三个变量,下界lb,
上界ub和中间值t。
有图中的表示形式为
=ub(t)或=lb(t)。
对于某些情况来说,上下界
不一定非要关于中间值对称。;决策树的生成主要分为两个步骤:首先构造一个最接近训练数据的树,然后修剪掉那些误差相对较大的分支。修剪过程首先针对每一颗子树决定是否用叶子或者分支代替它,然后再全局考虑决策树的性能。
Pruning CF的含义还不清楚,修剪的限定
条件是当value25%时需要修剪更多部分,
反之则要修建部分较少。
Minimum cases决定了在决定树的每个分
至点的最低分支数量为2。
Values higher than the default (2 cases) can lead to an initial tree that fits the training data only approximately -- a form of pre-pruning. ;此选项在构造分类器时不利用整个训练样本,而是
随机选取了一个子集构造分类器,构造成功后同样
在训练样本中选取一个不相交的子集进行精度评定。
x%规定了训练样本自己和精度评定子集的大小。
若x%50%,则后者与前者互补;
若x%50%,则后者与前者大小相同。
Lock sample能够使每次使用的子集固定不变。;将训练数据分为n个大小相同,分布相似的子集。每次选定一个子集,利用余下数据构造分类器,再用选定自己作为检测数据。
Mean: 平均误差
SE: the standard errors of the means;该选项能够显示分类树与相关数据的联系。例如,选择.data得到:
;单击某条实例,得到该实例
的分类子树。
单击某条规则/叶子,得到对
应被分类的实例编号。
需要注意的是,有时方框内的数据带有小数部分。这事因为某些实例的属性为空,导致在其他某些分类规则下,该实例也被分类。
原创力文档


文档评论(0)