c算法的一种改进及其应用word格式论文.docxVIP

c算法的一种改进及其应用word格式论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
c算法的一种改进及其应用word格式论文

独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他 人 已 经 发 表 或 撰 写 过 的 研 究 成 果 , 也 不 包 含 未 获 得(注:如没有其他需要特别声明的,本栏可空)或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。学位论文作者签名:签字日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,并同意以下 事项:1、学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。2、学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权清华大学“中 国学术期刊(光盘版)电子杂志社”用于出版和编入 CNKI《中国知识资源总库》,授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》。(保密的学位论文在解密后适用本授权书)学位论文作者签名:导师签字:签字日期: 年 月 日 签字日期: 年 月 日C4.5 算法的一种改进及其应用摘要随着科学技术的不断发展,人们的生活节奏不断加快,迫切需要从海量的数 据中快速提取有用信息的技术,这项技术就是数据挖掘。数据挖掘已成为当今最 热门的信息技术之一。C4.5 算法是数据挖掘十大经典算法中最经典的算法,在 数据挖掘技术中起着非常重要的作用,使用率非常高。C4.5 算法属于决策树算 法,分类规则以树的形式呈现。C4.5 算法改进于 ID3 算法,它在 ID3 算法的基 础上,用信息增益率代替信息增益作为选取根属性的标准,克服了用信息增益选 择属性时偏向选择取值多的属性的不足,能够完成对连续属性的离散化处理。 C4.5 算法的最大特点是建树规则易于理解,建树者不需要了解任何挖掘对象所 在领域的专业知识,并且分类速度快,分类器准确率高。C4.5 算法现在已经被 广泛应用到经济、工业、医药、农业等各个领域,因此对 C4.5 算法研究是十分 重要的。但是 C4.5 算法在很多地方存在不足,本文针对 C4.5 算法在数据冗余时 可能导致算法复杂度过大,效率低等问题,对 C4.5 算法进行改进,并命名为 R-C4.5 算法。算法的具体改进:计算每个属性中的元素的信息熵,比较同一属性下每个信 息熵的值,如果数值相近,再计算元素集合的相似度。如果相似度系数很高,那 么说明两个元素性质相同或相近,对两种元素进行合并形成一个新的元素。而相 似度的计算采用了改进的 Jaccard 系数,将两个集合其中的一个集合的每个元素 的个数乘以他们两个集合的总元素个数比,这样改进的目的不仅仅简单地比较两 个集合元素个数的相近度,而是比较集合中元素所占比例的相近度。通过对 C4.5 算法的改进,增强算法的预处理机制。改进的原理利用了信息 熵属性的约简,将冗余属性剔除,减少了算法的复杂度,从而大大提高了准确度。 本文不仅对 C4.5 算法进行了改进,同时在计算集合相似度时对 Jaccard 系数进行 了改进,使相似度计算的标准不再是集合中元素个数之比,而改为集合中元素比 例之比。这样做的目的是避免由于选取的总数量不同,而导致判断错误。 关键词: 数据挖掘;决策树;C4.5;R-C4.5IAn Improved C4.5 Algorithm and Application AbstractWith the continuous development of science and technology, there is an urgent need to extract useful information from the vast amounts of data technology. Data mining has become one of the most popular information technologies. C4.5 algorithm is the most classical of ten classical algorithms for data mining algorithms. Data mining technology plays a very important role with the high utilization rate. C4.5 algorithm is a decision tree algorithm based on classification rules, which is presented in the form of a tree. C4.5 a

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档