数据挖掘常用分类算法的研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘常用分类算法的研究

数据挖掘常用分类算法的研究   摘要:数据库、数据仓库以及其他存储信息库中潜藏着很多与商业、科学研究等活动的决策有关的数据和知识。对于数据挖掘中的数据分析,通常有两种常见的方法,即分类和预测,首先对数据库中的数据进行分类归纳,然后根据分类规则可以得到比较有价值的数据,然后我们可以根据这个数据来预测得到一些包含未来趋势的信息。在常见的分类算法中,决策树算法是一个有着很好扩展性的算法,可以应用到大型数据库中,可以对多种数据类型进行处理,分类模式容易转化为分类规则,结果也十分的浅显易懂易于理解。该文主要先介绍了几种常用的分类算法,然后具体介绍决策树算法的过程以及在分类算法实际应用中的优缺点。   关键词:数据挖掘;分类算法;人工智能;决策树   中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)34-7667-03   1 数据挖掘基本分类算法简要介绍   数据分类技术在日常很多领域都有过应用,譬如银行经常要使用分类模型来进行相应的商业评估;学校的教务系统要使用分类模型对学生的成绩以及各种评价来进行评估;研究生、博士生等发表论文,使用数据挖掘分类模型来对各种期刊进行细致的分类,这样才能有效的评价科研能力的好坏;还有例如百度、谷歌这样的大型搜索引擎,提供的推荐功能,分类技术已经融入了我们日常生活的方方面面,各个领域也提出了很多分类算法理论。   最开始的数据挖掘分类算法都是基于内存的算法。经过长时间的发展,数据挖掘算法也由使用内存开始逐步地使用外存以获得处理大数据的能力,以下对一些经典的分类算法进行介绍。   1)决策树分类算法   决策树分类算法是数据挖掘十分经典的分类算法。它使用自顶向下递归的方式构造决策树模型。决策树上的每一个结点都采用信息增益度量来选择所要测试的属性。也可以从已经生成的决策树上提取出分类规则。   2) 向量空间模型VSM算法   VSM的概念十分简单,就是把对文本内容的处理转化为对空间向量中的向量运算,   而且可以使用空间中的相似度参数来表示文本中语义的相似度,非常的直观简单。在向量空间模型中,文本包含了各种机器可以读取的记录信息。不妨用D表示,文本的特征集合可以表示为D(T1,T2,…,Tn),其中Tk是特征项,1=k=N。当文本集合被表示空间模型时,那么文本的相似度就可以表示为特征向量的内积。   VSM方法在预处理阶段需要进行大量的特征类别向量的计算,而特征类别向量的建立由依靠类别向量所包含的特征项。当所包含的非零特征向量越多,则每个特征向量的对于类别的表达能力越弱,所以VSM向量空间模型算法适合进行文献的分类工作。   3) K最近邻分类算法   K最近邻分类算法是一种理论上成熟的方法。这个算法实现的思路很简单:假设一个样本在其特征空间中的K个最相似的样本均属于同一个类别,则这个样本也属于该类别。这个算法只根据相邻最近的一个或者几个样本的所属类别来决定待分类样本的类别。   K最近邻分类算法虽然从原理上来说基于极限定理,但在类别决策的时候,却只与少量有限的样本有关。因此,使用这种方法可以避免样本选择失衡的问题。另外,由于K最近邻算法不是根据类域来确定样本的类别,而是根据相邻的少量的样本来确定,故对于样本类域的重合或相交的比较多的待分类样本集来说,K最近邻分类算法较其他算法更为适合。   K最近邻分类算法的应用范围十分的广泛,包含分类和回归。对一个数据集样本进行分析得到该样本集的K个最近邻的样本,然后将这些近邻样本的属性的平均值分配给该样本,得到该样本的属性。   该算法一个比较大的缺点是,当所选样本失衡时,例如一个类域的样本容量非常大,而其他类域样本容量又比较小时,这就有可能导致当输入一个新样本时,该样本的K个邻居中大容量类域的样本占多数。故而可以采用计算各个类域权值的方法(和该样本距离小的邻居权值大)来改进。该方法的另一个缺点是计算量比较大,因为对每一个待分类的样本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。现在的解决方法是,对已知样本进行预处理,对已知样本点进行剪切,事先除去对分类作用不大的样本。该算法比较适合样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。   4)支持向量机SVM算法   支持向量机SVM分类算法具有良好的性能。该算法是一个建立在数学统计学基础上的机器学习算法。通过该算法,可以自动找到那些对于分类有比较好的区分能力的向量,通过使用该算法生成的构造器可以很好的提高分类的适应能力和分类的准确率。该算法需要通过各个类域的边界样本的类别来决定最后样本的分类结果。   SVM算法的重点是在数据集样本中确定一个超平面,使得能够将数据集样本进行分类后分开,因此,SVM

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档