数据挖掘ID3算法.pptVIP

  • 65
  • 0
  • 约1.69万字
  • 约 87页
  • 2018-09-04 发布于河北
  • 举报
数据挖掘ID3算法

第6章 决策树 ID3 决策树算法 ID3算法主要针对属性选择问题。是决策树学习方法中最 具影响和最为典型的算法。 该方法使用信息增益度选择测试属性。 当获取信息时,将不确定的内容转为确定的内容,因此信 息伴着不确定性。 从直觉上讲,小概率事件比大概率事件包含的信息量大。 如果某件事情是“百年一见”则肯定比“习以为常”的事件包含的 信息量大。 如何度量信息量的大小? 第6章 决策树 ID3 –信息量大小的度量 决策树算法 Shannon1948年提出的信息论理论。事件ai的信息量I( ai )可 如下度量: 其中p(ai)表示事件ai发生的概率。 假设有n个互不相容的事件a1,a2,a3,….,an,它们中有且仅有一个 发生,则其平均的信息量可如下度量: 第6章 决策树 ID3 –信息量大小的度量 决策树算法 上式,对数底数可以为任何数,不同的取值对应了熵的不同单位。 通常取2,并规定当p(ai)=0时 =0 公式1 在决策树分类中,假设S是训练样本集合,|S|是训练样本数,样本 划分为n个不同的类C1,C2,….Cn,这些类的大小分别标记为|C1|, |C2|,…..,|Cn|。则任意样本S属于类Ci的概率为:

文档评论(0)

1亿VIP精品文档

相关文档