数据挖掘作业—莺尾花.docVIP

  • 24
  • 0
  • 约 6页
  • 2016-10-16 发布于河南
  • 举报
数据挖掘作业—莺尾花

(一)ChiMerge的工作原理: ChiMerge 是监督的、自底向上的(即基于合并的)数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。 基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。 1、 最简单的离散算法是等宽区间。 从最小值到最大值之间,,均分为N等份, 这样, 如果?A, B为最小最大值, 则每个区间的长度为w=(B-A) / N,?则区间边界值为?A+W, A+2W,?…. A+(N-1)W2、 还有一种简单算法,等频区间。区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说?N=10,每个区间应该包含大约10%的实例。 3、 以上两种算法有弊端:比如,等宽区间划分,划分为5区间,最高工资为50000,则所有工资低于10000的人都被划分到同一区间。等频区间可能正好相反,所有工资高于50000的人都会被划分到50000这一区间中。这两种算法都忽略了实例所属的类型,落在正确区间里的偶然性很大。 4、?C4、CART、PVM算法在离散属性时会考虑类信息,但是是在算法实施的过程中间,而不是在预处理阶段。例如,C4算法(ID3决策树系列的一种),将数值属性离散为两个区间,而取

文档评论(0)

1亿VIP精品文档

相关文档