- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘报告汇编
浙江工业大学计算机学院数据挖掘实验报告——分类算法:决策树、贝叶斯实验名称: 分类算法 班 级: 姓 名: 学 号: 指导教师: 实验日期: 2016/6/14 一、实验内容1.1决策树分类实验决策树是当下非常流行的一种分类器,因为,其构造不需要任何领域知识或参数设置,适合于探测式知识发现,且其具有很高的准确率。决策树归纳是从有类标号的训练元组中学习决策树。决策树是一种类似流程图的树结构,每个内部节点表示在一个属性上的测试,每个分支代表该测试的一个输出,每个叶子节点存放着类标号,即最终该分支的类属性预测。本次实验采用的是决策树实现中的C4.5算法,采用信息增益率作为属性选择的标准。对连续属性方面做了改进,并不是寻找分裂点,而是选择将连续值离散化,与离散值共同处理,简化了实验流程,提高了运算效率。1.2贝叶斯分类实验贝叶斯分类基于贝叶斯定理。朴素的贝叶斯分类法中的简单贝叶斯分类法可与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,也可体现较高的准确率和速度。朴素贝叶斯是基于贝叶斯定理进行计算的,前提是各项条件间具有良好的独立性。此外,对于零概率值,本实验还采用了拉普拉斯校准的方法进行调整。二、设计思路2.1决策树分类设计思路决策树C4.5算法是通过训练集数据的各项属性,计算当前剩余各项属性的信息增益率,作为当前节点的属性选择度量,随后按照该属性的不同值,将该节点上的数据进行划分,继续递归。若当前节点已无剩余可划分属性,则选择当前节点的多数类作为类标号,并停止递归;若当前节点已为纯类,则停止递归。本实验就原有的C4.5算法做了改变,并未设计连续值处理方案,而是在数据预处理部分,将连续值离散化为离散值,便于统一处理,并取得了较好的实验结果。同时,本次实验采取较为轻量级的先剪枝策略,即若某节点的数据数量达到设定阈值下限,则取该节点上的多数类作为该分支的类标号,或某节点的递归深度达到设定深度,同样取该节点上的多数类作为该分支的类标号并返回。实验数据分为检验集和训练集,每次实验分别轮流取第i个数据块为检验集,其余k-1个数据块为训练集,通过训练集得出的IF-THEN规则在检验集上进行检验,统计正确数量,并计算准确率。2.2朴素贝叶斯分类设计朴素贝叶斯分类算法基于贝叶斯定理,计算P(Ci|X)=(P(X|Ci)*P(Ci))/P(X),最大化P(Ci|X),其中P(Ci|X)最大的类Ci称为最大后验假设。即Ci为X条件下的情况预测。根据式子特点,P(X)对于所有类为常数,只需要最大化P(X|Ci)P(Ci)即可。同时,为了降低计算开销,可以做类独立条件的朴素假定,则有P(X|Ci)=P(x1|Ci)*P(x2|Ci)*…*P(xn|Ci)最后计算P(X|Ci)*P(Ci),选出其中最大的值,其所对应的Ci类即作为预测结果。三、数据结构设计3.1决策树数据结构3.1.1初始数据(data)存储结构struct data{vector int val; //该条记录的数据列表int res;}DataList[maxDataAmount];1.vector int valval用于存储某一条数据的各项属性的值。2.int resres表示该条数据的结果。3.data DataList[maxDataAmount]DataList数组则用于存储data类型的多条数据,maxDataAmount是宏定义的数据量最大值,可随具体情况改动。3.1.2属性数据(attribute)存储结构struct attribute //属性集合{bool consecutive; //该属性连续1或离散0 string attributeName; //该属性名称}AttributeList[maxAttributeAmount];1. bool consecutivebool类型的consecutive属性用于标明该条属性是否属于连续值,是值为1,不是值为0,在本次实验中,皆为0。2. string attributeName string类型的attributeName属性则用于存储该属性对应名称。3.attributeAttributeList[maxAttributeAmount]AttributeList数组用于存储attribute类型的属性数据。maxAttributeAmount是宏定义的属性数据量最大值。3.1.3决策树计算节点(node)结构设计struct node//决策树计算中间节点{vector int attri
您可能关注的文档
- 铸造工艺图选编.ppt
- 政府公共关系论文汇编.doc
- 铸造工艺学考试重点选编.doc
- 政工考试判断题@试题@2016年度“两学一做”汇编.doc
- 纵隔淋巴结新分区CT选编.ppt
- 铸造工艺学课件选编.ppt
- 放线管理方案汇编.docx
- 铸造工艺学石油大学选编.ppt
- 坐姿、握笔姿势培训选编.ppt
- 坐姿和指法选编.ppt
- 18J820 《装配式住宅建筑设计标准》图示.docx
- 2023年黑龙江省黑河市爱辉区三站林场招聘社区工作者真题及参考答案详解一套.docx
- 2023年黑龙江省黑河市孙吴县辰清镇招聘社区工作者真题带答案详解.docx
- 市政工程课件.pptx
- 2023年黑龙江省黑河市孙吴县辰清镇招聘社区工作者真题含答案详解.docx
- 2023年黑龙江省黑河市孙吴县辰清镇招聘社区工作者真题及答案详解1套.docx
- 2023年黑龙江省黑河市孙吴县辰清镇招聘社区工作者真题及参考答案详解.docx
- 2025至2030全球及中国干式空气滤清器行业市场深度研究及发展前景投资可行性分析报告.docx
- 2023年黑龙江省黑河市孙吴县辰清林场招聘社区工作者真题及答案详解一套.docx
- 2023年黑龙江省黑河市孙吴县辰清林场招聘社区工作者真题带答案详解.docx
文档评论(0)