- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类Classification:
分类是指将目标对象按照不同的标记进行分组,所有的标记都是已知的,这些对象往往都具有不同的特点。也就是说对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子。理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类预测的能力,这种提供训练数据的过程通常叫做? supervised learning?(监督学习)。
应用场景:银行贷款安全和风险、信用卡持卡用户进行分类
KNN算法:
K最邻近分类算法(K-Nearest Neighbor),最简单的机器学习算法之一。思路是:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某个类,则该样本也属于某个类别。
如上图所示,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。
决策树分类算法ID3:
ID3算法是由Quinlan首先提出的。该算法是以 信息论为基础,以 信息熵和 信息增益度为衡量标准,从而实现对数据的归纳分类。具体流程如下:
输入:样本集合S,属性集合A
输出:ID3决策树
= 1 \* GB2 ⑴若所有种类的属性都处理完毕,返回:否则执行2
= 2 \* GB2 ⑵计算出信息增益最大属性a,把该属性作为一个节点,如果仅凭属性a就可以对样本进行分类,则返回;否则执行3。
= 3 \* GB2 ⑶对属性a的每个可能的取值v,执行下一操作:
= 1 \* GB3 ①将所有属性a的值是v的样本作为S的一个子集Sv;
= 2 \* GB3 ②生产新的属性集合AT=A-{a}
= 3 \* GB3 ③以样本集合Sv和属性集合AT为输入,递归执行id3算法。
分类系统的信息熵和信息增益:
对分类系统来说,类别C是变量,可能的取值是C1,C2,C3Cn,而每个类别出现的概率为P(C1),P(C2),P(C3)P(Cn),N就是系统的类别,因此分类系统的熵代表包含系统所有特征属性时系统的信息量(熵),就可以表示为:
H
对分类系统来说,一个特征属性,系统有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给系统带来的信息量,即信息增益。系统包含特征属性时的信息量有了,那么就要求系统不包含该特征属性时的信息量,这个问题等价于系统包含了特征属性X,但特征属性X已经固定不能变化时的信息量,此时的信息量即条件熵需要用特征属性X每个可能的值出现的概率来表示:
H
=
具体到分类系统,分类系统的特征属性T的固定值t只可能取两个值(即t出现或t不出现),例如湿度这个特征属性的固定值(高)只可能取两个值,即高要么出现,要么不出现。
H
=-
因此特征T给系统带来的信息增益就可以写成系统原本的熵与固定特征T后的条件熵之差:IG(C)=H(C)
应用举例:使用ID3分类算法预测未知样本的类标号。给定球队球类比赛结果的训练样本集见下表。根据天气(Outlook),温度(Temperature),湿度(Humidity),风强度(Windy)
来判断该球队比赛结果是否会赢。类标号属性比赛结果具有两个不同值{Win, Lose}。设C1对应于类 Result=“Win”,而C2 对应于类Result =“Lose”。使用ID3分类算法来预测样本为
<Outlook=Sunny, Temperature=Hot, Humidity=High, Wind=Strong>的情况下,比赛的输赢结果。
首先,类别是(输赢结果)。取值yes的记录有9个,取值为no的记录有5个,那么P(C1)=9/14,P(C2)=5/14,那么计算分类系统的熵:
Entropy(S)=-(9/14)*log2(9/14) -(5/14)*log2(5/14);
然后分别计算以各个属性作为根节点的信息增益
Outlook的信息增益:
Entropy(Sunny)=-(2/5)*log2(2/5)-(3/5)*log2(3/5)=0.971
Entropy(Rain)=-(2/5)*log2(2/5)-(3/5)*log2(3/5) =0.971
Entropy(Overcast)=-(4/4)*log2(4/4)=0
Gain(Outlook)=Entropy(S)-(5/14)*Entropy(Sunny)-(5/14)*Entropy(Rain)- (4/14)* Entropy(Overcast)=0.247
Temperature的信息增益:
您可能关注的文档
最近下载
- GIS空间分析方法.pptx VIP
- 《GIS空间分析原理与方法》课程教学大纲.doc VIP
- 2024河北省单招数学考试真题 .pdf VIP
- 可编程控制器应用技术第2版[西门子S7-1200](PLC)高职PPT完整全套教学课件..pptx VIP
- (2025秋新版)外研版四年级英语上册《Unit3第2课时(Start up) 》PPT课件.pptx
- 2017款东风标致5008_汽车使用手册用户操作图示驾驶指南车主车辆说明书电子版.pdf
- 初一上册生物知识点总结及初一上册生物答案.doc VIP
- 【新教材】2025-2026学年粤人版(2024)初中地理八年级上册教学计划及进度表.pdf VIP
- 厂房钢结构工程施工方案(3篇).docx
- 初一历史上册复习提纲.pdf VIP
原创力文档


文档评论(0)