决策技术应用分析与验证.docVIP

下载本文档

3
0
约3.13千字
约 6页
2016-08-20 发布于北京
举报
版权申诉

决策技术应用分析与验证.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策技术应用分析与验证.doc

决策技术应用分析与验证　　摘要：现对模糊决策树技术的应用进行了有针对性地分析，了解各算法生成决策树的优缺点及适用范围。对二分法交叉验证的方法给出完整说明，并对准备生成的决策树模型进行了准确性评估，为具体应用提供了理论上的进一步验证。　　关键词：决策；算法；模型　　中图分类号：TP75 文献标识码：A 　　文章编号：1005-913X（2015）08-0229-01 　　一、模糊决策树技术应用分析　　决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。构造决策树的过程为：首先寻找初始分裂。决定哪个属性域作为目前最好的分类指标。一般的做法是穷尽所有的属性域，对每个属性域分裂的好坏做出量化，计算出最好的一个分裂。建决策树，就是根据记录字段的不同取值建立树的分支，以及在每个分支子集中重复建立下层结点和分支。　　由于现实世界中某些事物的属性是很相近的，如果按照清晰的标准把它们分到不同的类别，可能会造成信息的丢失。例如：当“车载重量”低于100 时，认为是“轻”，而高于100低于200 时，则认为是“中”，那么当重量是临界值的时候，用模糊的方法更适合。模糊综合评判的过程包括：综合考虑各种属性，建立被评判对象的因素集；建立评判集，即评价的等级和评语；建立单因素评判，即对实际对象的因素集中的属性运用评判集进行评价；根据实际情况，赋予不同因素以不同的权重；根据权重和单因素评判结果得出综合评判的结果。　　清晰算法是一种典型的决策树归纳算法，这种算法在假定示例的属性值和分类值是确定的前提下，使用信息熵作为启发式建立一棵清晰的决策树。针对现实世界中存在的不确定性，人们提出了另一种决策树归纳算法，即模糊决策树算法，它是清晰决策树算法的一种推广。这两种算法在实际应用中各有自己的优劣之处，针对一个具体问题的知识获取过程，选取哪一种算法目前还没有一个较明确的依据。　　（一）生成决策树的优缺点　　清晰决策树（CDT）知识表示可理解性差，没有考虑现实中分类的不确定性，生成树概括能力差，对空间的划分过于细致，不易推广。产生的知识具有一定的偏差，易受噪音影响，易产生过于适合现象。模糊决策树（FDT）知识表示可理解性强，充分考虑现实中分类的不确定性，生成树的概括能力强，对空间划分适中，易于推广。产生的知识表达较为准确，抗噪音能力强，避免产生过于适合现象。　　（二）适用范围　　CDT 适用于符号值属性和分类较清晰、噪音小的中小型数据库。FDT适用于各种情况的数据库，特别是对属性和类模糊性强，有噪音的数据库。对模糊决策树算法的评价决策树对比神经元网络的优点在于可以生成一些规则。当进行一些决策时，还需要相应的理由的时候，使用神经元网络就不行了。　　总之，在决策树的算法当中，模糊决策树更符合现实世界，具有更广泛的应用空间。　　二、模型准确性评估　　（一）解释评估标准　　在完成一个挖掘算法之后，常常会获得成百上千的模式或规则。显然这些规则中会有一小部分是有实际应用价值的。那么如何对数据挖掘所获得的挖掘结果进行有效地评估，以便最终能够获得有价值的模式（规则）知识，这就给数据挖掘提出了许多需要解决的问题。　　1.使一个模式有价值的因素是什么？评估一个模式（知识）是否有意义通常依据以下四条标准：一是易于用户理解；二是对新数据或测试数据能够确定有效程度；三是具有潜在价值；四是新奇的。一个有价值的模式就是知识。　　2.一个数据挖掘算法能否产生所有有价值的模式（知识）？这是指数据挖掘算法的完全性。期望数据挖算法能够产生所有可能模式是不现实的。实际上一个模式搜索方法可以利用有趣性评价标准来帮助缩小模式的搜索范围。因此通常只需要保证挖掘算法的完全性就可以了。　　3.一个数据挖掘算法能否只产生有价值的模式？解释评估所挖掘模式的趣味性标准对于有效挖掘出具有应用价值的模式知识是十分重要的。这些标准可以直接帮助指导挖掘算法，获取有实际应用价值的模式知识，以及摒弃无意义的模式。更为重要的是这些模式评估标准将积极指导整个知识发现过程，通过及时清除无前途的搜索路径，提高挖掘的有效性。判断分类的好坏一般可从如下指标进行考虑：预测准确率、速度、创建速度、使用速度、处理噪声和丢失值、伸缩性、对磁盘驻留数据的处理能力、可解释性、对模型的可理解性、规则好坏的评价、决策树的大小和分类规则的简明性。　　（二）二分法交叉验证评估的实现方法　　其中预测准确度是用得最多的一种比较尺度，特别是对于预测分类任务而言，目前公认的方法是分层交叉验证的损失函数方法。交叉验证是一种模型评估方法。分类是有监督学习，通过学习可以对未知的数据进行预测。在训练过程开始之前，将一部分数据予以保留，在训练之后，利用这部分