- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 决策树和决策规则;决策树和决策规则是解决实际应用中分类问题的数据挖掘方法。
一般来说,分类是把数据项映射到其中一个事先定义的类中的这样一个学习函数的过程。由一组输入的属性值向量(也叫属性向量)和相应的类,用基于归纳学习算法得出分类。
学习的目标是构建一个分类模型,通常也叫分类器。它可以根据有效的属性输入值预测一些实体(所给样本)的类。是一个在样本其他属性已知的情况下预测另外一个属性(样本的类)的模型(分类的结果)。;7.1 决策树;图7-2是一个简单的决策树。该问题有两个属性X,Y。所有属性值X1和YB的样本属于类2。不论属性Y的值是多少,值X 1的样本都属于类1。;对于树中的非叶节点,可以沿着分枝继续分区样本,每一个节点得到它相应的样本子集。
生成决策树的一个著名的算法是Quinlan的ID3算法,C4.5是它改进版。;ID3算法的基本思路:
从树的根节点处的所有训练样本开始,选取一个属性来划分这些样本。对属性的每一个值产生一分枝。分枝属性值的相应样本子集被移到新生成的子节点上。
这个算法递归地应用于每个子节点,直到一个节点上的所有样本都分区到某个类中。
到达决策树的叶节点的每条路径表示一个分类规则。;该算法的关键性决策是对节点属性值的选择。ID3和C4.5算法的属性选择的基础是基于使节点所含的信息熵最小化。
基于信息论的方法坚持对数据库中一个样本进行分类时所做检验的数量最小。ID3的属性选择是根据一个假设,即:决策树的复杂度和所给属性值表达的信息量是密切相关的。基于信息的试探法选择的是可以给出最高信息的属性,即这个属性是使样本分类的结果子树所需的信息最小。;9、我们的市场行为主要的导向因素,第一个是市场需求的导向,第二个是技术进步的导向,第三大导向是竞争对手的行为导向。七月-21七月-21Tuesday, July 20, 2021
10、市场销售中最重要的字就是“问”。00:08:2500:08:2500:087/20/2021 12:08:25 AM
11、现今,每个人都在谈论着创意,坦白讲,我害怕我们会假创意之名犯下一切过失。七月-2100:08:2500:08Jul-2120-Jul-21
12、在购买时,你可以用任何语言;但在销售时,你必须使用购???者的语言。00:08:2500:08:2500:08Tuesday, July 20, 2021
13、He who seize the right moment, is the right man.谁把握机遇,谁就心想事成。七月-21七月-2100:08:2500:08:25July 20, 2021
14、市场营销观念:目标市场,顾客需求,协调市场营销,通过满足消费者需求来创造利润。20 七月 202112:08:25 上午00:08:25七月-21
15、我就像一个厨师,喜欢品尝食物。如果不好吃,我就不要它。七月 2112:08 上午七月-2100:08July 20, 2021
16、我总是站在顾客的角度看待即将推出的产品或服务,因为我就是顾客。2021/7/20 0:08:2500:08:2520 July 2021
17、利人为利已的根基,市场营销上老是为自己着想,而不顾及到他人,他人也不会顾及你。12:08:25 上午12:08 上午00:08:25七月-21
;7.2 C4.5算法:生成一个决策树;例如,如图7-3a为决策树分类模型,待分类有样本如图7-3b所示,由决策树分类模型可得出待分类样本为类2。(节点A,C,F(叶节点));C4.5算法的构架是基于亨特的CLS方法,其通过一组训练样本T构造一个决策树。用{C1,C2,…,CK}来表示这些类,集合T所含的内容信息有3种可能性:
T包含一个或更多的样本,全部属于单个的类Cj。那么T的决策树是由类Cj标识的一个叶节点。
T不包含样本。决策树也是一个叶,但和该叶关联的类由不同于T的信息决定,如T中的绝大多数类。;3. T包含属于不同类的样本。这种情况下,是把T精化成朝向一个单类样本集的样本子集。根据某一属性,选择具有一个或更多互斥的输出{O1,O2,…,On}的合适检验。T被分区成子集T1,T2,…,Tn。T的决策树包含标识检验的一个决策点和每个可能输出的一个分枝(如图7-3a中的A,B和C节点);假设选择有n个输出(所给属性的n个值)的检验,把训练样本集T分区成子集T1,T2,…,Tn。仅有的指导信息是在T和它的子集Ti中的类分布。
如果S是任意样本集,设freq(Ci,S)代表S中属于Ci的样本数量,|S|表示集合S中的样本数量。;ID3算法的属性选择的检验方法采用增益标准,它基于信息论中熵的概念。
集合S的期望信息(熵)如下:
T被分区之后的一个相似度标准,T按照一个属性检验X的几个输出
文档评论(0)