- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7章:数据分类课件
分类方法 ;;;“二分”问题;分类的基本思路;训练的思路;分类目的;*;*;分类问题的描述;数据分类的两个步骤;分类示例;分类示例;分类术语;分类;主要评价指标;其他分类评价指标;是否存在完美的分类器?;分类方法的类型;基于距离的分类算法的思路; 基于距离的分类算法的一般性描述;基于距离的分类方法的直观解释;K-近邻分类算法;KNN的例子;KNN的例子;*;*;*;*;*;*;*;*;*;*;*;*;*;熵示例;*;*;期望信息;; ID3算法应用举例
【例】表7-12中给出了某公司客户信息的训练样本集,利用IDB算法生成决策树,并进行规则提取。; 【解】样本集共8条记录total=8,其中:客户购买力高C1类记录数n1=3,客户购买力一般C2类记录数n2=2,客户购买力低C3类记录数n3=3,所以训练集中三个类别的先验概率分别为:
P(C1)=3/8,P(C2)=2/8,P(C3)=3/8。
根据式(7-12),对训练集分类所需的期望信息为:; 同理可得:
Gain(A2)=0.61,Gain(A3)=0.954,Gain(A4)=0.936。; 根据ID3 算法选择信息增益最大的属性“销售频率A3”作为树根,在8个实例中对“销售频率A3”的2个取值进行分枝。
2 个分枝对应2个子集,分别是: 销售频率A3为“≥10”的子集 F1={1,6,7};销售频率A3为“<10”的子集F2={2,3,4,5,8}。其中, F1 中的实例全部属于C1类( 客户购买力高) ,因此对应分枝标注为一个叶结点,而且叶结点的类标号为C1类( 客户购买力高), F2子集既含C2类又含有C3类, 将递归调用建树算法。
F2中共有5个实例,有2个属于C2类,3个属于C3类:
I(n2,n3)= -((2/5)log2(2/5)+(3/5)log2(3/5))=0.971
A1=客户性质, E(A1)=0 , Gain(A1)= 0.971。
A2=年生产总值, E(A2)=0.8, Gain(A2)=0.171。
A4=所属省市,E(A4)=0.4, Gain(A4)=0.571。; 按信息增益最大的“客户性质A4”属性,可将F2进一步划分为:F21={2};F22={3,5,8};F23={4}。其中,F21和F23中的实例全属于C2类,F22中的实例全属于C3类。到此,递归建树过程结束,得到企业客户购买力判定树如图7.6所示。; 由决策树可以很容易得到“IF…THEN…”形式的分类规则,方法是沿着由根节点到树叶节点的路径,路径上的每一个属性-值对可以形成“IF”部分的一个合取项,树叶节点包含类预测,形成“THEN”部分。每一条路径可以创建???个规则。图7.6所示的决策树可以转化为以下形式的分类规则:;*
原创力文档


文档评论(0)