数据挖掘概念与技术————-医学演示课件-精选.ppt

数据挖掘概念与技术————-医学演示课件-精选.ppt

小数定标规范化举例 例:假定A的值由-986~917。A的最大绝对值为986,使用小数定标规范化 用1000(j=3)除这个值,这样,-986规范为-0.986,而917规范为0.917 * * 协同计算与知识工程 * 数据变换——属性构造(特征构造) 特征提取(Feature Extraction) 由原始数据创建新的特征集称为特征提取。由于原始数据中有许多信息,但其形式不适合数据挖掘算法。在这种情况下,就要由原始的一个或多个特征来构造新的特征。 例如:我们可能根据电信客户在一个季度内每个月的消费金额特征构造季度消费金额特征。(将每个月的消费金额相加) * 协同计算与知识工程 * 数据变换——离散化与概念分层 离散化 通过将属性域划分为区间,减少给定连续属性值的个数(如学生成绩数据),区间的标号可以代替实际的数据值 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 * 协同计算与知识工程 离散化 三种类型的属性值: 名称型:无序集合中的值;e.g. 颜色、职业 序数:有序集合中的值; e.g. 军衔、职称 连续值;e.g. 实数 离散化 数值型数据的离散化 分类数据的离散化 * * 协同计算与知识工程 数值数据的离散化和概念分层生成 等宽离散化 等深(等频)离散化 聚类分析 基于熵的离散化 通过自然划分分段 * * 协同计算与知识工程 * 无监督离散化 原始数据 等宽离散化 等频离散化 K-means 等宽方法是将属性值域划分成相同宽度的区间。可能造成有的区间包含许多实例,有的区间很少实例。 等频方法将相同数量的对象放到每个区间。 * 协同计算与知识工程 * 有监督离散化 基于熵的离散化(Entropy based approach) * 协同计算与知识工程 通过自然划分分段 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000,60000] 自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间 * * 协同计算与知识工程 自然划分的3-4-5规则 规则的划分步骤: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7?2,3,2) 例如区间:-10000—20000,该区间的最高有效位msd=10000,则该区间跨越了(20000-(-10000))/10000=3 个不同的值。 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层; 对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95% * * 协同计算与知识工程 (-$400 -$5,000) (-$400 - 0) (-$400 - -$300) (-$300 - -$200) (-$200 - -$100) (-$100 - 0) (0 - $1,000) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($2,000 - $5, 000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000) ($1,000 - $2, 000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) msd=1,000 Low=-$1,000 High=$2,000 第二步 第四步 第一步 -$351 -$159 profit $1,838 $4,700 Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max count (-$1,000 - $2,000) (-$1,000 - 0) (0 -$ 1,000) 第三步 ($1,000 - $

文档评论(0)

1亿VIP精品文档

相关文档