- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘
摘 要
基于粗糙集的决策树分类算法研究
基于粗糙集的决策树分类算法研究
I
I
PAGE
PAGE IV
摘要
数据挖掘是指从大型数据库或数据仓库中提取潜在的、有价值的、未知的 知识或模式的复杂过程。在这一过程中,对数据的分类是数据挖掘的一个重要 的研究方向,许多挖掘问题本质上都可以等价地转化为分类问题。目前,分类 已经广泛应用于医疗诊断、天气预测、信用证实、客户区分、欺诈鉴别等许多 领域。挖掘分类模式的方法有很多,常用的有决策树、神经网络、遗传算法、 贝叶斯分类器、贝叶斯信念网络和粗糙集等。与其它分类技术相比,决策树方 法由于分类准确率高,效率高,生成模式易于理解等优点成为应用最广的分类 算法之一。但是决策树技术也有它的缺点:一方面,它无法删除带噪声的不相 关的属性,另一方面,通过计算信息熵生成的决策树,计算量大,并且存在大 量子树重复问题,特别当存在大量冗余属性时,生成的决策树过于庞大。
粗糙集理论(Rough Set)是由波兰数学家 Z.Pawlak 教授提出的一种处理模糊、 不精确、不完整和不确定数据的有效数学工具,它具有很强的知识获取能力, 并将分类和知识联系在一起。但是其不足之处是容错能力和推广能力相对较弱。
本文在对 ID3 算法进行系统总结的基础上,针对其存在的不足,将粗糙集 理论应用于决策树技术,做了如下研究工作:
(1)对仅有离散值属性的情况下,利用粗糙集理论中条件属性相对于决策属性 的核以及条件属性的区分能力,对可辨识矩阵约简算法加以改进,以便对数据 集合中存在的冗余属性进行分类前的属性约简。
(2)本文从粗糙集和决策树两种方法具有的优势互补性出发,将粗糙集理论应 用于决策树技术,提出了一种基于粗糙集的决策树分类算法 RsDt,该算法采用 加权分类粗糙度作为结点选择属性的启发函数,该标准能够全面地刻画属性分 类的综合贡献能力,并且比信息增益的计算为简单。
(3)为了消除噪声数据对选择属性和生成叶结点的影响,本文采用两种方法对 文中提出的 RsDt 决策树算法进行优化。方法一:在变精度粗糙集模型的基础对 RsDt 算法进行优化,提出了 VPRsDt 算法,该算法首先基于变精度正域修正条 件属性对数据的初始划分模式,然后再计算属性的加权分类粗糙度,这是由于
变精度粗糙集理论在将等价类划归近似区间时允许一定程度的误差存在,因此
这种方法可以很好地抑制噪声数据。方法二:采用 EBP 后剪枝法对 RsDt 算法进 行优化。通过对 UCI 数据库中数据集的实验挖掘结果表明,VPRsDt 算法生成的 决策树较 ID3 算法生成的决策树规模降低,分类准确率提高。方法二生成的决 策树与 C4.5 算法生成的决策树相比,在叶结点个数、分类准确率和时间性能上 相当,并优于 ID3 算法。
关键词:数据挖掘;决策树;粗糙集;决策树优化;剪枝
A
Abstract
基于粗糙集的决策树分类算法研究
基于粗糙集的决策树分类算法研究
III
III
PAGE
PAGE IV
Abstract
Data mining,referred to as Knowledge discovery in databases,is the extraction of patterns representing Knowlegde implicitly stored in large databases or data warehouses.In this process, classification of data is an important research direction, on the nature of the data mining problem, many can be transformed into equivalent classification,it has been widely used in many fields such as medical diagnosis,climate predict,credit validate,client distinguish,fraud discriminate and so on.There are many techniques for data classification such as decision tree induction, networks,genetic algorithms,Bayesian classification and Bayesian belief networks, and rough set Etc. Compared to other classification techniques,Decision tree
您可能关注的文档
- 基于差异化理念的产品系统设计研究-工业设计工程专业论文.docx
- 基于差异化营销提升产品价格优势的研究——以北京动力源DUM系列通信电源产品为例-市场营销专业论文.docx
- 基于差异化战略的大学定位分析-企业管理专业论文.docx
- 基于磁阻传感器的交通流参数采集与应用研究-计算机技术专业论文.docx
- 基于差异化战略的大学定位研究-高等教育学专业论文.docx
- 基于磁阻传感器的雾区智能行车诱导系统设计-交通信息工程及控制专业论文.docx
- 基于磁阻传感器的载体姿态测量系统的设计-控制理论与控制工程专业论文.docx
- 基于差异化战略的舟山乡村旅游产品双导向发展研究-农业推广专业论文.docx
- 基于差异基因cDNA文库基础上耐药性癫痫患者脑内特异性标示蛋白筛选和机制探讨-神经病学专业论文.docx
- 基于磁阻和加速度传感器的三轴电子罗盘研制-仪器科学与技术专业论文.docx
- 基于场景化知识表示的自然语言处理及其在自动文本校对中的应用-交通信息工程及控制专业论文.docx
- 基于粗糙集的决策树算法研究及在CRM中的应用-管理科学与工程专业论文.docx
- 基于场景建模的辅助驾驶模糊控制方法研究-控制工程专业论文.docx
- 基于粗糙集的决策树算法在高校评教中的应用-计算机软件与理论专业论文.docx
- 基于场景流形的长视频分段拼接的研究与实现-信号与信息处理专业论文.docx
- 基于场景描述的MIS需求工程研究-信息管理与信息系统专业论文.docx
- 基于粗糙集的粒计算在数据挖掘中的研究与应用-计算机科学与技术专业论文.docx
- 基于粗糙集的绿色施工项目评标决策研究-工业工程专业论文.docx
- 基于场景信息的手机报警装置设计-电子与通信工程专业论文.docx
- 基于粗糙集的启发式属性约简特征选择方法研究-计算机软件与理论专业论文.docx
最近下载
- 【解读】GB17761-2018电动自行车安全技术规范.pdf VIP
- AD832I机台操作指引.pdf VIP
- 《植物的茎》(教案)-中职农林牧渔大类《植物生长和环境》同步教学(高教版)(第四版)(全一册).docx VIP
- 证券从业资格证金融市场基础知识模拟卷及答案解析.docx VIP
- 证券从业资格证考试金融市场基础知识冲刺试题.docx VIP
- 证券从业资格证《金融市场基础知识》考前练习及答案解析.docx VIP
- 证券从业《金融市场基础知识》基础练及答案解析.docx VIP
- 证券从业资格考试金融市场基础知识预测试题及答案解析.docx VIP
- 2021年证券从业考试《金融市场基础知识》习题及答案.docx VIP
- 高中英语学业质量标准研究.pptx VIP
文档评论(0)