- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于代表性数据决策树集成
基于代表性数据决策树集成
(太原理工大学 计算机与软件学院, 太原 030024)
摘 要:
为了获得更好的决策树集成效果,在理论分析的基础上从数据的角度提出了一种基于代表性数据的决策树集成方法。该方法使用围绕中心点的划分(PAM)算法从原始训练集中提取出代表性训练集,由该代表性训练集来训练出多个决策树分类器,并由此建立决策树集成模型。该方法能选取尽可能少的代表性数据来训练出尽可能好的决策树集成模型。实验结果表明,该方法使用更少的代表性数据能获得比Bagging和Boosting还要高的决策树集成精度。
关键词:代表性数据; 决策树; 聚类; 围绕中心点的划分; 集成学习; Bagging; Boosting
中图分类号:TP301.6文献标志码:A
文章编号:1001?菠B3695(2009)04?菠B1241?菠B03
Ensemble of decision trees based on representative data
LI Hai??fang, DING Zhou??fang, WANG Li??qun
(College of Computer Software, Taiyuan University of Technology, Taiyuan 030024, China)
Abstract:
To generate better ensemble output of decision trees, based on the theoretic analysis, this paper put forward a method used for ensemble of decision trees with representative data from the data point of view .This method extracted representative data via partition around medoids (PAM) algorithm from the original training set at first, then it trained a number of decision trees with the help of the representative data and built a ensemble model with the trained decision trees. This method could select the less representative data and trained the better ensemble model of decision trees. The experiment results show that this method can obtain higher ensemble precision of decision trees than Bagging or Boosting furthermore it uses less representative training set.
Key words:representative data; decision tree; cluster; PAM; ensemble learning; Bagging; Boosting
在原始数据集中的数据通常有以下特点:不完整性,缺少属性值或仅包含聚集数据;不一致性,原始数据的来源不同,数据定义缺乏统一的标准而导致系统间数据内涵不一致;有噪声,数据中存在异常、错误值或孤立点;冗余性,通常是由数据集成所造成的数据记录或属性的重复。由于这些特点,许多原始数据在学习算法的训练阶段并不都是有用的。近年来一些研究人员认为, 在产生决策树前尽量减少训练数据量比在决策树产生后再简化决策树更能够提高决策树的性能[1~6]。
?ゾ劾嗍侵赴凑帐挛锏哪承┦粜裕?将物理或抽象对象的集合分组成为由类似的对象组成的若干个类,使得在同一个聚类(簇)中的对象尽可能地彼此相似,不同聚类(簇)中的对象尽可能地彼此相异。
?セ?于原始数据存在的缺陷及聚类的性质和作用,本文提出了基于代表性数据的决策树集成方法。该方法利用聚类算法从原始样本数据中提取一些代表性样本,删除冗余数据、相似数据和噪声数据,从而减少训练数据并提高训练数据的质量,进而改进单个决策树的性能[1~3]。集成多个改善性能后的决策树应能够得到比集成直接用原始数据所训练出的多个决策树要更好的集成效果。
1 决策树的性能与训练数据间的关系
?
原创力文档


文档评论(0)