决策树和朴素贝叶斯算法简介(2021年).pdf

决策树和朴素贝叶斯算法简介(2021年).pdf

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:400-050-0739(电话支持时间:9:00-19:00)。
决策树和朴素贝叶斯算法简介 本节主要介绍数据挖掘中常见的分类方法决策树和朴素贝叶斯算法。 决策树算法 决策树( Decision Tree ,DT )分类法是一个简单且广泛使用的分类技术。 决策树是一个树状预测模型,它是由结点和有向边组成的层次结构。树中包含 3 种结点: 根结点、内部结点和叶子结点。决策树只有一个根结点,是全体训练数据的集合。 树中的一个内部结点表示一个特征属性上的测试, 对应的分支表示这个特征属性在某个值域 上的输出。 一个叶子结点存放一个类别, 也就是说, 带有分类标签的数据集合即为实例所属 的分类。 1. 决策树案例 使用决策树进行决策的过程就是, 从根结点开始, 测试待分类项中相应的特征属性, 并按照 其值选择输出分支,直到到达叶子结点,将叶子结点存放的类别作为决策结果。 图 1 是一个预测一个人是否会购买电脑的决策树。利用这棵树,可以对新记录进行分类。 从根结点(年龄)开始,如果某个人的年龄为中年,就直接判断这个人会买电脑,如果是青 少年,则需要进一步判断是否是学生,如果是老年,则需要进一步判断其信用等级。 图 1 预测是否购买电脑的决策树 假设客户甲具备以下 4 个属性:年龄 20 、低收入、是学生、信用一般。通过决策树的根 结点判断年龄, 判断结果为客户甲是青少年, 符合左边分支, 再判断客户甲是否是学生,判 断结果为用户甲是学生,符合右边分支,最终用户甲落在“ yes ”的叶子结点上。所以预测 客户甲会购买电脑。 2. 决策树的建立 决策树算法有很多,如 ID3 、C4.5 、CART 等。这些算法均采用自上而下的贪婪算法建立 决策树, 每个内部结点都选择分类效果最好的属性来分裂结点, 可以分成两个或者更多的子 结点,继续此过程直到这棵决策树能够将全部的训练数据准确地进行分类, 或所有属性都被 用到为止。 1 )特征选择 按照贪婪算法建立决策树时,首先需要进行特征选择,也就是使用哪个属性作为判断结点。 选择一个合适的特征作为判断结点,可以加快分类的速度,减少决策树的深度。 特征选择的目标就是使得分类后的数据集比较纯。 如何衡量一个数据集的纯度?这里就需要 引入数据纯度概念——信息增益。 信息是个很抽象的概念。 人们常常说信息很多, 或者信息较少, 但却很难说清楚信息到底有 多少。 1948 年,信息论之父 Shannon 提出了“信息熵”的概念,才解决了对信息的量化度量 问题。 通俗来讲, 可以把信息熵理解成某种特定信息的出现概率。 信息嫡表示的是信息的不 确定度,当各种特定信息出现的概率均匀分布时,不确定度最大,此时嫡就最大。反之,当 其中的某个特定信息出现的概率远远大于其他特定信息的时候, 不确定度最小, 此时熵就很 小。 所以,在建立决策树的时候,希望选择的特征能够使分类后的数据集的信息熵尽可能变小, 也就是不确定性尽量变小。 当选择某个特征对数据集进行分类时, 分类后的数据集的信息嫡 会比分类前的小, 其差值表示为信息增益。 信息增益可以衡量某个特征对分类结果的影响大 小。 ID3 算法使用信息增益作为属性选择度量方法,也就是说,针对每个可以用来作为树结点 的特征, 计算如果采用该特征作为树结点的信息增益。 然后选择信息增益最大的那个特征作 为下一个树结点。 2 )剪枝 在分类模型建立的过程中, 很容易出现过拟合的现象。 过拟合是指在模型学习训练中, 训练 样本达到非常高的逼近精度, 但对检验样本的逼近误差随着训练次数呈现出先下降后上升的 现象。过拟合

文档评论(0)

153****5747
该用户很懒,什么也没介绍

相关文档

相关课程推荐