基于云模型的分类算法.ppt基于云模型的分类算法.ppt
Heart属性合并示意 age + resting blood pressure + maximum heart rate (0.4):年龄高、血压高且心率高的人患心脏病风险较大 exercise induced angina + oldpeak + major vessels (0.3):患有运动性心绞痛且易运动发病的人,同时脉管硬化点多且运动ST峰值下降的人,患心脏病几率较大 ST segment + thal (0.4):ST倾斜度低且间脑无恙的人患病几率低 0.1 0.1 0.2 年龄较小且血压不高的人患心脏病的几率小于 年龄偏大且有高血压的人 * 在分类数据训练集中,对每个属性的分类数据,并不一定严格遵循正态分布。考虑如下情况: 若各数据取值较为集中 彼此数值差距不大 逆向云发生器算法 可以近似认为 显然,当n足够大时, , 亦即He在实数范围内无解。 分类知识表示-分类知识表示 趋于正态的数据 越靠近概念核心,云滴确定度越大 确定度反应分类趋势 对于分布趋势趋近于正态分布的属性分类数据,使用经典的逆向云 算法即可得到此属性的云描述,且很好的刻画了其数据分布 分类知识表示-分类知识表示 偏离正态的数据 对分类实质贡献很高的属性值由于 偏离了分类知识核心,不能够获得 足够高的确定度,严重影响分类结果 对于分布趋势趋偏离正态分布的属性分类数据,使用经典的逆向云 算法无法求得实数He,此时若采用一个较小的He取代之,所产生的 正态云不能够很好的覆盖数据分布,确定度已经不能够反应样本实质 贡献。 分类知识表示-分类知识表示 分类逆向云算法 [Ex,En,He]=CG-1C(X)(Revers Cloud Generator for Classification) 输入:N有效个样本属性数据,对原始数据中的数据缺失问题,可直接忽略其数据; 输出:N个样本属性所隐含的分类知识,使用云模型三个数字特征表示; 1. procedure [Ex,En,He] = CG-1C(X) 2. begin 3. Ex = sum(X) / length(X); 4. En = sqrt(pi/2) * sum(abs(X-Ex)) / length(X); 5. s2 = sum((X-Ex).*(X-Ex)) / (length(X)-1); 6. if(s2 – En 0) 7. He = 0.98*En; 8. else 9. He = sqrt(s2-En); 10. end if; 11. end. 分类知识表示-分类知识表示 云模型数字特征的新含义 Ex:表示定量类别属性样本数据的核心值,是最能代表此类的属性取值 En:刻画了数据分布相对于 的离散程度,是类别属性取值不确定性度量 He:在取值较小情况下,云模型服从泛正态分布, 用来刻画 的不确定性; 取值较大的情况下 ( ),云模型呈现雾化形态, 用来描述定量数值对 的共识程度。综合而言,在分类问题中,超熵是对于分类知识偏离正态分布的程度度量 分类知识表示-分类知识表示 分类数据的云映射 类别属性云:对任意待分类事物的样本集 AC为条件属性集合, ,对应类别m的a属性样本取值为 , ,映射: 是根据m类型的a的属性值集合 计算分类逆向云的过程 分类知识表示-分类知识表示 分类数据的云映射 含有 类别的测试集S,每个样本具有 条件属性 ,使用分类逆向云算法映射之后,其第k个类别的数据 可以使用一个n维的类别属性云向量表示: 整个数据集合S可以表示为 维的类别属性云矩阵 分类知识表示-分类知识表示 Iris云映射结果 分类知识表示-分类知识表示 类别 花瓣长 花瓣宽 萼片长 萼片宽 setosa (1.464,0.16,0.056) (0.244,0.105,0.021) (5.006,0.339,0.096) (3.418,0.362,0.118) versicolor (4.26,0.475,0.465) (1.326,0.197,0.018) (5.936,0.528,0.517) (2.77,0.319,0.312) virginica (5.552,0.55,0.022) (2.026,0.286,0.28) (6.588,0.629,0.087) (2.974,0
原创力文档

文档评论(0)