网站大量收购独家精品文档,联系QQ:2885784924

Clementine决策树CHAID算法文档.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

CHAID算法(Chi-SquareAutomaticInteractionDetection)

CHAID提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。

不同于C&R树和QUEST节点,CHAID分析可以生成非二进制树,即有些分割有两个以上的分支。

CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重量和频率领域。

CHAID分析,卡方自动交互检测,是一种用卡方统计,以确定最佳的分割,建立决策树的分类方

法。

1.CHAID方法(卡方自动交叉检验)

CHAID根据细分变量区分群体差异的显著性程度(卡方值)的大小顺序,将消费者分为不同的细

分群体,最终的细分群体是由多个变量属性共同描述的,因此属于多变量分析。

在形式上,CHAID非常直观,它输出的是一个树状的图形。

1.它以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续

变量,如年龄,收入要定义成分类或有序变量)进行分类,计算分类的卡方值(Chi-Square-Test)。如果

几个变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类法作为

子节点。

2.CHIAD可以自动归并自变量中类别,使之显著性达到最大。

3.最后的每个叶结点就是一个细分市场

CHAID自动地把数据分成互斥的、无遗漏的组群,但只适用于类别型资料。

当预测变量较多且都是分类变量时,CHAID分类最适宜。

2.CHAID分层的标准:卡方值最显著的变量

3.CHAID过程:建立细分模型,根据卡方值最显著的细分变量将群体分出两个或多个群体,对

于这些群体再根据其它的卡方值相对最显著的细分变量继续分出子群体,直到没有统计意义上显

著的细分变量可以将这些子群体再继续分开为止。

4.CHAID的一般步骤

-属性变量的预处理

-确定当前分支变量和分隔值

属性变量的预处理:

-对定类的属性变量,在其多个分类水平中找到对目标变量取值影响不显著的分类,并合并它们;

-对定距型属性变量,先按分位点分组,然后再合并具有同质性的组;

-如果目标变量是定类变量,则采用卡方检验

-如果目标变量为定距变量,则采用F检验

(统计学依据数据的计量尺度将数据划分为三大类,即定距型数据(Scale)、定序型数

据(Ordinal)和定类型数据(Nominal)。定距型数据通常指诸如身高、体重、血压等

的连续性数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有在固有大小

或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示。如职称变量可以有

低级、中级和高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、

青三个取值,分别用A、B、C表示等。这里无论是数值型的1、2、3还是字符型的A、B、

C,都是有大小或高低顺序的,但数据之间却是不等距的。因为低级和中级职称之间的差

距与中级和高级职称之间的差距是不相等的;定类型数据是指没有在固定大小或高低顺

序,一般以数值或字符表示的分类数据。)

s2

s2F大

F检验:比较两组数据的方差,,假设检验两组数据没有显著差异,FF表,则接受

s2

原假设,两组数据没有显著差异;FF表,拒绝原假设,两组数据存在显著差异。

属性变量预处理的具体策略

-如果仅有一个或两个分组,则不做合并处理

-根据卡方统计量(或似然比卡方)

文档评论(0)

秋天 + 关注
实名认证
内容提供者

三十年河东,三十年河西,莫欺少年穷。

1亿VIP精品文档

相关文档