数据挖掘原理算法与应用教学作者梁亚声第5章节电子教案课件幻灯片.ppt

下载文档

15
0
约4.33万字
约 153页
2018-03-26 发布于广东
举报
版权申诉
保障服务

数据挖掘原理算法与应用教学作者梁亚声第5章节电子教案课件幻灯片.ppt

1、本文档共153页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 5.5.5 粗糙集方法 5.5 其他分类方法粗糙集理论可以用于分类问题，以帮助发现不准确或噪声数据中所存在的结构关系。它只能处理离散量，因此连续量必须首先进行离散化后方可使用。粗糙集理论基于给定训练数据内部的等价类的建立。形成等价类的所有数据样本是不加区分的。即，对于描述数据的属性，这些样本是等价的。给定的现实世界数据，通常有些类不能被可用的属性所区分。粗糙集可以用来近似或“粗略地”定义这种类。对于一个集合（类别）C的粗糙集定义就是：通过两个集合，一个C的下近似集合和C的上近似集合来描述。C的下近似集合包含那些肯定无疑属于C的数据样本，而C的上近似集合则是那些不能肯定不属于C的数据样本。 5.5.5 粗糙集方法 5.5 其他分类方法上图就是一个集合C的上近似集合和下近似集合的示意描述。其中每个矩形区域代表一个等价集合。可以为每个集合产生相应的决策规则；通常都用一个决策表来表示这些规则。可以利用粗糙集来进行属性消减、相关分析等操作，从给定数据集中寻找出可以描述相应数据特征概念的最小属性集合本身就是一个NP问题，减少其计算复杂度的算法；其中的一个方法就是利用可分辨矩阵，该矩阵存有两个数据样本之间属性取值之差。借助可分辨矩阵就无需搜索这个数据样本集合，而只需要搜索该矩阵，就可以帮助发现冗余属性。 5.5.6 模糊集合方法 5.5 其他分类方法用于分类的基于规则系统的缺点之一就是对连续值的处理是间断的。例如：用于顾客信用申请批准的规则如下。该规则的基本内容就是批准一个工作时间有二年以上且有一个高收入（如：50K）的人的信用申请。 IF (years_employed=2) AND (income=50K) THEN credit=approved 利用该规则，有一个工作时间为二年以上的顾客，如果收入大于50K，那么信用申请将被批准，但若他的收入为49K，则就得不到信用。这显然是不合理的，这时若引入模糊逻辑就可以帮助解决这一不合理情况。由于模糊逻辑可以利用0.0到1.0之间的实数来表示一个特定值属于某个类别的程度；因此这里利用模糊逻辑就可以描述“高收入”这样一个模糊概念，而无需非要使用大于50K的这样一个硬性标准。在进行分类的数据挖掘系统中，模糊逻辑是非常有用的。它提供了在较高抽象层次上进行挖掘的优势。一般基于规则系统利用模糊逻辑，要考虑以下几个方面： 5.5.6 模糊集合方法 5.5 其他分类方法用于分类的基于规则系统的缺点之一就是对连续值的处理是间断的。例如：用于顾客信用申请批准的规则如下。该规则的基本内容就是批准一个工作时间有二年以上且有一个高收入（如：50K）的人的信用申请。 IF (years_employed=2) AND (income=50K) THEN credit=approved 利用该规则，有一个工作时间为二年以上的顾客，如果收入大于50K，那么信用申请将被批准，但若他的收入为49K，则就得不到信用。这显然是不合理的，这时若引入模糊逻辑就可以帮助解决这一不合理情况。由于模糊逻辑可以利用0.0到1.0之间的实数来表示一个特定值属于某个类别的程度；因此这里利用模糊逻辑就可以描述“高收入”这样一个模糊概念，而无需非要使用大于50K的这样一个硬性标准。 5.5.6 模糊集合方法 5.5 其他分类方法在进行分类的数据挖掘系统中，模糊逻辑是非常有用的。它提供了在较高抽象层次上进行挖掘的优势。一般基于规则系统利用模糊逻辑，要考虑以下几个方面：（1）属性值需要转换为模糊值。如图所示，就是将一个连续取值属性收入映射到离散类别中（低收入，中等收入，高收入）；并计算出相应的模糊值（概念隶属度）。模糊逻辑系统通常都会提供相应操作工具来帮助用户完成这一映射工作。 5.5.6 模糊集合方法 5.5 其他分类方法（2）给定一个新样本，可以应用多于一个的规则；每个被应用的规则对概念隶属度的计算都贡献一票。一般需要将每个预测类别的相应隶属度（模糊值）累加起来，以便获得最终的结果。（3）步骤（2）中所获得的隶属度之和将被系统返回，实际上这些隶属度也可以与相应的权值相乘之后再累加。而依赖模糊隶属函数的具体复杂程度所需进行的计算或许也很复杂。模糊逻辑目前已经应用到许多分类领域，其中包括：健康医疗和金融保险等领域。 5.6 预测算法预测是构造和使用模型