翻译文献总.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于多重类别分类任务的混合决策树和朴素贝叶斯分类器 摘要 在这篇文章中,我们介绍了两种独立的混合数据挖掘算法来提高在解决多类别分类问题时决策树(DT)和朴素贝叶斯(NB)分类器的分类准确率。高效的DT和NB分类器被广泛用于处理数据挖掘中的分类问题。由于训练集存在噪音矛盾实例,生成的决策树可能会有过拟合,其准确度也会降低。在第一种混合算法DT中,我们采用朴素贝叶斯(NB)分类器来剔除训练集中的噪音实例。此外,NB分类器计算高纬空间数据集的类条件独立是极其昂贵的。因此,在第二种混合NB分类器中,我们采用了DT感应来选择在生成类条件独立的天真的假设方面显得更为重要的子集。我们使用了从加州警官大学机器学习存储库中得到的10个真实基准数据集,分别采用分类准确度、精密度、灵敏特异分析和10重交叉验证这些指标,基于现有的DT和NB分类器来测试两个上述所说的混合算法的性能。实验结果表明这些方法在面对实际生活中的多类别分类问题时会产生令人印象深刻的结果。此处提到的算法既能自动提取具有重要价值的训练集,也能在高维复杂的训练集中识别最有效的实例。 介绍 在过去十年里,为解决实际中的分类和聚类问题所作计算智能研究提出了大量的数据挖掘算法。一般来说,分类指的是数据挖掘中描述和区别数据的类或概念的功能。分类是为了精确地预测那些已知属性值而组距值未知的实例的当类标签。聚类是将在一群同组相比具有高度相似性而与其他组相比却极其不相似的实例聚集成一组。聚类分析是不需要考虑已知的类标签。对实例进行聚集时需遵循最大化同类相似和最小化原则。绝大多数的数据挖掘算法的性能好坏取决于数据集的质量。因为低质量的训练集数据有可能会导致过拟合或脆弱的分类器。因此,需要对数据进行预处理。提高了数据的质量从而提高了挖掘过程中的精确度和效率。关于数据预处理方法有:(a)数据清理:剔除噪音数据,(b)数据融合:融合多信源数据,(c)数据转换:数据归一化,(d)数据精简:聚集或消除多余特征从而降低数据量。 这篇文献呈现了在处理多重类别分类问题时所用的两种独立的混合算法来提高决策树分类器和朴素贝叶斯分类器的精确度。决策树被广泛应用于数据挖掘案例中,如:ID3,ID4,ID5,C4.5,C5.0,和CART。决策树是通过建立一个模型来预测待测类的值,为了基于已知的特征所建立的未知的测试实例。在其他数据挖掘方法中,决策树具有各种各样的优点:(a)易懂,(b)易于实现,(c)需要较少的先验知识,(d)可处理数值型和逻辑型数据,(e)稳健性,(f)能处理大型和具有噪音的数据集。朴素贝叶斯分类器是一个基于贝叶斯理论,独立性假设和独立特征模型的简单的概率型分类器。同时,这是一个重要的数据挖掘分类器,由于它的分类性能好,被应用在许多实际生活中的分类问题。与决策树分类器相似的是贝叶斯分类器同样具有很多优点,如:易于操作,只有一个需扫描的训练集,可操作缺失属性值和连续型数据。 在这篇文章中,关于处理多重类别分类问题我们提到了两个混合算法分别是决策树分类器和朴素贝叶斯分类器。第一种混合决策树算法通过使用朴素贝叶斯分类器找到训练集中不显著的实例,并在构建决策树作出决策时剔除这些实例。否则,决策树有可能会过拟合和降低其精确度,由于噪音实例的存在。此外,使用朴素贝叶斯分类器来计算具有许多属性的数据集的类条件独立性是极其昂贵的。第二种混合朴素贝叶斯算法利用决策树感应来找到最重要的子集,并计算通过其选择的属性值的权重。只有这些被选中的属性值对应的权重会被采纳用于类条件独立性假设的计算当中。我们使用了从加州警官大学机器学习存储库中得到的10个真实基准数据集,分别采用分类准确度、精密度、灵敏特异分析和10重交叉验证这些指标,基于现有的DT和NB分类器来测试两个上述所说的混合算法的性能。实验结果表明这些方法在面对实际生活中的多类别分类问题时会产生令人印象深刻的结果。此处提到的算法既能自动提取具有重要价值的训练集,也能在高维复杂的训练集中识别最有效的实例。 文章其余部分的机构如下。第二节给出了关于决策树分类器和朴素贝叶斯分类器工作的概述。第三节介绍了基本的决策树和朴素贝叶斯分类器技术。第四节提出了分别基于决策树和朴素贝叶斯分类器的两种处理多重类别分类问题的混合算法。第五节提供了实验结果和针对现有的决策树和朴素贝叶斯算法的比较结果,基于UCI机器学习存储库中的10个真实的基准数据集。最后,第六节得出研究结果并提出了未来工作的方向。 2. 相关工作 在这一节中,我们审查了一些为了解决各种现实世界的多层次分类问题而存在的决策树以及贝叶斯分类器。 2.1. 决策树 决策树的分类为一些大型数据集(具有大量数据)提供了一个有用并且快速的解决的方法。决策树通常有两个常见问题的建设积极的标签和所有其它负面标签该混合分类器的性能U

文档评论(0)

精品资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档