分类算法小结.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

分类算法小结

学号:12013120116李余芳

分类是数据挖掘中比较重要的一类,它的算法也有很多。在此,我将一些常用的算法做一个简单的小结。

决策树

决策树技术是用于分类和预测的主要技术,决策树学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理除决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支,然后进行剪枝,最后在决策树的叶节点得到结论。所以从根到叶节点就对应着一条合取规则,整棵树就对应着一组析取表达式规则。树的每一个结点上使用信息增益度量选择测试属性。可以从生成的决策树中提取规则。。

优点:

1、易于理解和解释.人们在通过解释后有能力去理解决策树所表达的意义。

2、能够同时处理数据型和常规型属性。其他技术往往要求数据属性的单一。

3、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。

4、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

5、可以对有许多属性的数据集构造决策树。

6、决策树可很好地扩展到大型数据库中,它的大小独立于数据库的大小。

缺点:

1、对于各类别样本数量不一致的数据,在决策树中,信息增益的结果偏向于那些具有更多数值的特征。

2、决策树处理缺失数据时的困难。

3、过度拟合问题的出现。

4、忽略数据集中属性之间的相关性。

应用

1、决策树是用二叉树形图来表示处理逻辑的一种工具。可以直观、清晰地表达加工的逻辑要求。特别适合于判断因素比较少、逻辑组合关系不复杂的情况。

2、决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断。

3、决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了很多数据预处理工作等等。

二、K最近邻法(KNN)

KNN法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法。该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。

优点:

1、简单、有效。

2、K最近邻算法是一种非参数的分类技术,在基于统计的模式识别中非常有效,并对未知和非正态分布可取得较高的分类准确率。

3、在类别决策时,只与极少量的相邻样本有关,可以较好地避免样本的不平衡问题。

4、该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

缺点:

1、KNN算法是建立在VSM模型上的,其样本距离测度使用欧式距离。若各维权值相同,即认定各维对于分类的贡献度相同,显然这不符合实际情况。

2、KNN是懒散的分类算法,对于分类所需的计算均推迟至分类进行,故在其分类器中存储有大量的样本向量。在大样本集和高维样本分类时所需要的时间和空间的复杂度均较高。

3、计算量较大。因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。

应用

KNN在快速文本分类,快速分形图像编码,在药材的识别和查询、搜索等诸多方面都有应用。

三、人工神经网络(ANN)

神经网络的学习规则就是修改神经网络的权值和偏置值的方法和过程(也称这种过程为训练算法)。神经网络分类算法的重点是构造阈值逻辑单元,一个值逻辑单元是一个对象,它可以输入一组加权系数的量,对它们进行求和,如果这个和达到或者超过了某个阈值,输出一个量。

优点:

1、神经网络可以任意精度逼近任意函数

2、神经网络方法本身属于非线形模型,能够适应各种复杂的数据关系。

3、神经网络具备很强的学习能力,使它能够比很多分类算法更好地适应数据空间的变化。

4、神经网络借鉴人脑的物理结构和机理,能够模拟人脑的某些功能,具备“智能”的特点。

缺点:

1、神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值。

2、不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度。

3、学习时间过长,甚至可能达不到学习的目的。

应用

ANN作为人工智能的一个分支,在暖通空调(HAVC)领域、中药领

您可能关注的文档

文档评论(0)

183****9588 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档