- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘之分类算的研究毕业论文
数据挖掘之分类算法的研究
摘要:对分类算法中需要解决的关键问题进行了分析;综述了不同分类算法的思想和特性,决策树分类算法能够很好地处理噪声数据,但只能对规模较小的训练样本集有效;贝叶斯分类算法精度高、速度快、错误率低、但分类不够准确;传统的基于关联规则算法分类算法准确率高,但容易受硬件内存的制约;支持向量机算法分类准确率高、复杂性低,但速度慢。并且针对决策树分类算法的缺点进行了改进。
关键字:数据挖掘,分类算法,决策树
0 引言
数据挖掘是从海量数据中获取有用知识和价值的过程,是数据库技术自然演化的结果。数据挖掘已广泛应用于零售、金融、保险、医疗、通讯等行业,并展现出了其强大的知识发现的能力。在数据挖掘的研究与应用中,分类( Classification) 算法一直受学术界的关注,它是一种有监督的学习,通过对已知类别训练集的分析,从中发现分类规则,??此预测新数据的类别。数据分类算法中,为建立模型而被分析的数据元组组成的数据集合称为训练数据集,训练数据集中的单个样本( 或元组) 称为训练样本。分类算法是将一个未知样本分到几个已存在类的过程,主要包含两个步骤: 第1 步,根据类标号已知的训练数据集,训练并构建一个模型,用于描述预定的数据类集或概念集; 第2 步,使用所获得的模型,对将来或未知的对象进行分类。
1 分类算法中的关键问题
不同的分类算法有不同的特性,完成不同的任务。目前很多分类算法被机器学习、专家系统、统计学和神经生物学等的研究者从不同角度提出,判断不同分类算法的好坏可以由准确率、速度、健壮性、可伸缩性、可解释性等几个标准来衡量。另外,分类算法的效果通常和数据的特点有关,有的数据有空缺值,有的噪声大,有的分部稀疏,有的属性是连续的,有的则是离散或混合的。经典的分类算法都有在不同的领域取得成功,比如决策树分类算法用于医疗诊断、金融分析、评估贷款申请的信用风险等广阔领域; 支持向量机分类算法应用于模式识别、基因分析、文本分类、语音识别、回归分析等领域; 由于对噪声数据具有很好的承受能力,神经网络广泛应用在字符识别、分子生物学、语音识别和人脸识别等领域。但每种分类算法都存在优缺点,加上数据的多样性以及实际问题的复杂性,使到目前为止,没有哪一种算法优于其他分类算法。例如,尚未有一种分类算法在任何数据集合下生成决策树的质量方面超过其他算法; 神经网络是基于经验风险最小化原则的学习算法,本身存在一些固有的缺陷,而这些缺陷在SVM 算法中可以得到很好解决。所以,如何寻找合适的分类算法是实际应用中亟待解决的问题。
2 数据挖掘的主要分类算法综述
数据挖掘的分类算法有多种,本文重点描述决策树、贝叶斯、基于关联规则、支持向量机等分类算法的特性及其新发展。
2.1 决策树分类算法
决策树分类算法也称为贪心算法,采用自顶向下的分治方式构造,它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,是以实例为基础的归纳学习方法。决策树分类算法对噪声数据有很好的健壮性,能够学习析取表达式,是最为广泛使用的分类算法之一[1]。决策树的每个内部节点(非叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,每个叶节点代表类或类分布,树的顶层节点是根节点。决策树算法通过将样本的属性值与决策树相比较,来对未知样本进行分类。
首先根据训练数据集来构建决策树,建立决策树模型,这实际上是一个从数据中获取知识,进行机器学习的过程[2]。树代表训练样本的单个根节点开始,使用分类属性(如果是量化属性,则需要进行离散化),递归地通过选择相应的测试属性来划分样本,一旦一个属性出现在一个节点上,就不在该节点的任何后代上出现,测试属性是根据某种启发信息或者是统计信息来进行选择(如信息增益)。第二个阶段是树剪枝,树剪枝试图检测和剪去训练数据中的噪声和孤立点,尽量消除模型中的异常。剪枝后的树变小、复杂度降低,在正确地对独立检验数据分类时效果更快更好。
ID3算法是最早的决策树分类算法,但只是对规模较小训练样本集有效。针对ID3算法构造决策树复杂、分类效率不高的问题,文献[3]采用加权分类粗糙度作为节点选择属性的启发函数,提出基于粗糙集理论的决策树构造算法,无论在规模或是分类效率上均优于ID3 算法。Olaru. R 提出了一种基于模糊方法的软决策树算法,极大地提高了树的正确率和归纳能力。王熙照教授等研究者为处理多类问题,采用基于层次分解的方法产生多层决策树;针对C4.5算法的不足,提出新的决策树算法解决归纳学习的判决精度问题[4]。还有一种多决策树综合技术,先将数据集分成多个子数据集,然后将生成的多个不同的决策树综合起来,生成最终的、最稳定的决策树。
2.2 贝叶斯分类算法
贝叶斯( Beyes) 分类算法基于概率统计学的贝叶斯定理,是一种在先验概率与类
您可能关注的文档
最近下载
- 《短歌行》《归园田居(其一)》情景默写(附参考答案)--统编版高中语文必修上册.pdf VIP
- T_AHEMA 002—2020_HDPE土工膜漏点双电极法测量.pdf VIP
- 第1单元活动1 认识生活中的算法(教学课件)湘科版信息科技五年级上册.ppt
- 3DMine矿业工程软件-培训.pptx VIP
- 2024年AI面试实践手册-牛客_8705.docx
- 标志设计与品牌的关系.pptx VIP
- 新22J01《工程做法》(新疆图集).pdf VIP
- 一种用于双电极法检测土工膜渗漏的测量仪.pdf VIP
- 对外业务合作管理办法.pdf VIP
- 【中职】高教2023版 世界历史第2课 古代希腊罗马 PPT课件.pptx VIP
文档评论(0)