网站大量收购闲置独家精品文档,联系QQ:2885784924

如何修改基本决策树算法.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)的count? 使用修改过的算法,构造给定数据的决策树。 给定一个数据元组,它的属性department,age和salary的值分别为“systems”,“26…30”,和“46K…50K”。该元组status的朴素贝叶斯分类是什么? 1. 为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。 2. 使用上面得到的多层前馈神经网络,给定训练实例(sales,senior,31…35,46K…50K),给出后向传播算法一次迭代后的权重值。指出你使用的初始权重和偏倚以及学习率。 解答: 如何修改基本决策树算法,以便考虑每个广义数据元组(即每一行)的count? 使用修改过的算法,构造给定数据的决策树。 给定一个数据元组,它的属性department,age和salary的值分别为“systems”,“26…30”,和“46K…50K”。该元组status的朴素贝叶斯分类是什么? 解一:设元组的各个属性之间相互独立,所以先求每个属性的类条件概率: P(systems|junior)=(20+3)/(40+40+20+3+4+6)=23/113; P(26-30|junior)=(40+3+6)/113=49/113; P(46K-50K|junior)=(20+3)/113=23/113; ∵ X=(department=system,age=26…30,salary=46K…50K); ∴ P(X|junior)=P(systems|junior)P(26-30|junior)P(46K-50K|junior) =23×49×23/1133=25921/1442897=0.01796; P(systems|senior)=(5+3)/(30+5+3+10+4)=23/52; P(26-30|senior)=(0)/53=0; P(46K-50K|senior)=(30+10)/52=40/52; ∵ X=(department=system,age=26…30,salary=46K…50K); ∴ P(X|senior)=P(systems|senior)P(26-30|senior)P(46K-50K|senior)=0; ∵ P(junior)=113/165=0.68; ∵ P(senior)=52/165=0.32; ∴ P(X|junior)P(junior)=0.01796×0.68=00=P(X|senior)P(senior); 所以:朴素贝叶斯分类器将X分到junior类。 解二:设元组的各属性之间不独立,其联合概率不能写成份量相乘的形式。所以已知:X=(department=system,age=26…30,salary=46K…50K),元组总数为:30+40+40+20+5+3+3+10+4+4+6=165。 先验概率: 当status=senior时,元组总数为:30+5+3+10+4=52,P(senior)=52/165=0.32; 当status=junior时,元组总数为:40+40+20+3+4+6=113,P(junior)=113/165=0.68; 因为status=senior状态没有对应的age=26…30区间,所以:P(X|senior)=0; 因为status=junior状态对应的partment=systems、age=26…30区间的总元组数为:3,所以:P(X|junior)=3/113; 因为:P(X|junior)P(junior)=3/113×113/165=0.0180=P(X|senior)P(senior); 所以:朴素贝叶斯分类器将X分到junior类。 为给定的数据设计一个多层前馈神经网络。标记输入和输出层节点。 使用上面得到的多层前馈神经网络,给定训练实例(sales,senior,31…35,46K…50K),给出后向传播算法一次迭代后的权重值。指出你使用的初始权重和偏倚以及学习率。 7.3.1 判定树归纳 判定树归纳的基本算法是贪心算法,它以自顶向下递归的划分-控制方式构造判定树。算法在图7.3中,是一种著名的判定树算法ID3版本。算法的扩展将在7.3.2到7.3.6小节讨论。算法的基本策略如下: 树以代表训练样本的单个结点开始(步骤1)。 如果样本都在同一个类,则该结点成为树叶,并用该类标号(步骤2和3)。 否则,算法使用称为信息增益的基于熵的度量作为启发信息,选择能够最好地将样本分类的属性(步骤6)。该属性成为该结点的“测试”或“判定”属性(步骤7)。在算法的该版本中,所有的属性都是分类的,即离散值。连续属性必须离散化。 对测试属性的每个已知的值,创建一个

您可能关注的文档

文档评论(0)

xx88606 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档