数据挖掘概念与技术————-医学课件.ppt

数据挖掘概念与技术————-医学课件.ppt

小数定标规范化举例 例:假定A的值由-986~917。A的最大绝对值为986,使用小数定标规范化 用1000(j=3)除这个值,这样,-986规范为-0.986,而917规范为0.917 * * 协同计算与知识工程 * 数据变换——属性构造(特征构造) 特征提取(Feature Extraction) 由原始数据创建新的特征集称为特征提取。由于原始数据中有许多信息,但其形式不适合数据挖掘算法。在这种情况下,就要由原始的一个或多个特征来构造新的特征。 例如:我们可能根据电信客户在一个季度内每个月的消费金额特征构造季度消费金额特征。(将每个月的消费金额相加) * 协同计算与知识工程 * 数据变换——离散化与概念分层 离散化 通过将属性域划分为区间,减少给定连续属性值的个数(如学生成绩数据),区间的标号可以代替实际的数据值 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 * 协同计算与知识工程 离散化 三种类型的属性值: 名称型:无序集合中的值;e.g. 颜色、职业 序数:有序集合中的值; e.g. 军衔、职称 连续值;e.g. 实数 离散化 数值型数据的离散化 分类数据的离散化 * * 协同计算与知识工程 数值数据的离散化和概念分层生成 等宽离散化 等深(等频)离散化 聚类分析 基于熵的离散

文档评论(0)

1亿VIP精品文档

相关文档