- 6
- 0
- 约2.77万字
- 约 57页
- 2017-07-30 发布于浙江
- 举报
Quinlan的ID3算法是最先提出的决策树分类算法,改进之后提出了C4.5算法。 大多数同学的大作业都是采用分类和预测算法,那么在这里要强调选择的数据集中的哪个属性用来进行分裂。 * 问题在于如何确定选择进行分裂的属性?为什么先选择age,而不是其它属性?(依据香农定律和信息熵,计算每个属性分裂后的信息增益,选择增益最大的分支) * * I : the expected information needed to classify a given sample E (entropy) : expected information based on the partitioning into subsets by A 信息增益的缺点:偏向具有许多输出的测试,倾向于选择具有大量值的属性进行分裂。 * Gain Ratio的优点:克服了信息增益的缺陷。 缺点:随着分裂信息趋近于0,最终的GainRatio(A)会变得不稳定。 * * * * * * * * * * * * Na?ve Bayesian Classifier: An Example P(Ci): P(buys_computer = “yes”) = 9/14 = 0.643 P(buys_computer = “no”) = 5/14= 0.357 Compute
原创力文档

文档评论(0)