《数据挖掘算法.docxVIP

下载本文档

64
0
约1.03万字
约 15页
2017-01-18 发布于北京
举报
版权申诉

《数据挖掘算法.docx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《数据挖掘算法

分类Classification:分类是指将目标对象按照不同的标记进行分组，所有的标记都是已知的，这些对象往往都具有不同的特点。也就是说对于一个 classifier ，通常需要你告诉它“这个东西被分为某某类”这样一些例子。理想情况下，一个 classifier 会从它得到的训练集中进行“学习”，从而具备对未知数据进行分类预测的能力，这种提供训练数据的过程通常叫做?supervised learning?(监督学习)。应用场景：银行贷款安全和风险、信用卡持卡用户进行分类KNN算法：K最邻近分类算法（K-Nearest Neighbor），最简单的机器学习算法之一。思路是：如果一个样本在特征空间中的k个最相似的样本中的大多数属于某个类，则该样本也属于某个类别。如上图所示，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。决策树分类算法ID3：ID3算法是由Quinlan首先提出的。该算法是以信息论为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。具体流程如下：输入：样本集合S,属性集合A输出：ID3决策树⑴若所有种类的属性都处理完毕，返回：否则执行2⑵计算出信息增益最大属性a，把该属性作为一个节点，如果仅凭属性a就可以对样本进行分类，则返回；否则执行3。⑶对属性a的每个可能的取值v，执行下一操作：①将所有属性a的值是v的样本作为S的一个子集Sv；②生产新的属性集合AT=A-{a}③以样本集合Sv和属性集合AT为输入，递归执行id3算法。分类系统的信息熵和信息增益：对分类系统来说，类别C是变量，可能的取值是C1，C2，C3Cn，而每个类别出现的概率为P(C1),P(C2),P(C3)P(Cn)，N就是系统的类别，因此分类系统的熵代表包含系统所有特征属性时系统的信息量（熵），就可以表示为：对分类系统来说，一个特征属性，系统有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给系统带来的信息量，即信息增益。系统包含特征属性时的信息量有了，那么就要求系统不包含该特征属性时的信息量，这个问题等价于系统包含了特征属性X，但特征属性X已经固定不能变化时的信息量，此时的信息量即条件熵需要用特征属性X每个可能的值出现的概率来表示：具体到分类系统，分类系统的特征属性T的固定值t只可能取两个值（即t出现或t不出现），例如湿度这个特征属性的固定值（高）只可能取两个值，即高要么出现，要么不出现。因此特征T给系统带来的信息增益就可以写成系统原本的熵与固定特征T后的条件熵之差：应用举例：使用ID3分类算法预测未知样本的类标号。给定球队球类比赛结果的训练样本集见下表。根据天气（Outlook），温度（Temperature），湿度（Humidity），风强度（Windy）来判断该球队比赛结果是否会赢。类标号属性比赛结果具有两个不同值{Win, Lose}。设C1对应于类 Result=“Win”,而C2 对应于类Result =“Lose”。使用ID3分类算法来预测样本为＜Outlook=Sunny, Temperature=Hot, Humidity=High, Wind=Strong＞的情况下，比赛的输赢结果。首先，类别是（输赢结果）。取值yes的记录有9个，取值为no的记录有5个，那么P(C1)=9/14，P(C2)=5/14，那么计算分类系统的熵:Entropy(S)=-(9/14)*log2(9/14) -(5/14)*log2(5/14);然后分别计算以各个属性作为根节点的信息增益Outlook的信息增益：Entropy(Sunny)=-(2/5)*log2(2/5)-(3/5)*log2(3/5)=0.971Entropy(Rain)=-(2/5)*log2(2/5)-(3/5)*log2(3/5) =0.971Entropy(Overcast)=-(4/4)*log2(4/4)=0Gain(Outlook)=Entropy(S)-(5/14)*Entropy(Sunny)-(5/14)*Entropy(Rain)- (4/14)* Entropy(Overcast)=0.247Temperature的信息增益：Entropy(Hot)=-(2/4)*log2(2/4)-(2/4)*log2(2/4)=1Entropy(Mild)=-(4/6)*log2(4/6)-(2/6)*log2(2/6)=0.918Entropy(Cool)=-(3/4)*log2(3/4)-(1/4)*log2(1/4)=0.811Gain(Temperature)= Entropy(S)-(4/