数据挖掘概念与技术————-医学演示课件-精选.ppt

下载文档 降价啦

6
0
约1.15万字
约 103页
2020-01-12 发布于湖北
举报
保障服务

数据挖掘概念与技术————-医学演示课件-精选.ppt

小数定标规范化举例例：假定A的值由-986~917。A的最大绝对值为986，使用小数定标规范化用1000（j=3)除这个值，这样，-986规范为-0.986，而917规范为0.917 * * 协同计算与知识工程 * 数据变换——属性构造（特征构造）特征提取(Feature Extraction) 由原始数据创建新的特征集称为特征提取。由于原始数据中有许多信息，但其形式不适合数据挖掘算法。在这种情况下，就要由原始的一个或多个特征来构造新的特征。例如：我们可能根据电信客户在一个季度内每个月的消费金额特征构造季度消费金额特征。（将每个月的消费金额相加） * 协同计算与知识工程 * 数据变换——离散化与概念分层离散化通过将属性域划分为区间，减少给定连续属性值的个数(如学生成绩数据），区间的标号可以代替实际的数据值概念分层通过使用高层的概念（比如：青年、中年、老年）来替代底层的属性值（比如：实际的年龄数据值）来规约数据 * 协同计算与知识工程离散化三种类型的属性值：名称型：无序集合中的值；e.g. 颜色、职业序数：有序集合中的值； e.g. 军衔、职称连续值；e.g. 实数离散化数值型数据的离散化分类数据的离散化 * * 协同计算与知识工程数值数据的离散化和概念分层生成等宽离散化等深（等频）离散化聚类分析基于熵的离散化通过自然划分分段 * * 协同计算与知识工程 * 无监督离散化原始数据等宽离散化等频离散化 K-means 等宽方法是将属性值域划分成相同宽度的区间。可能造成有的区间包含许多实例，有的区间很少实例。等频方法将相同数量的对象放到每个区间。 * 协同计算与知识工程 * 有监督离散化基于熵的离散化(Entropy based approach) * 协同计算与知识工程通过自然划分分段将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。聚类分析产生概念分层可能会将一个工资区间划分为：[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000，60000] 自然划分的3-4-5规则常被用来将数值数据划分为相对一致，“更自然”的区间 * * 协同计算与知识工程自然划分的3-4-5规则规则的划分步骤：如果一个区间最高有效位上包含3，6，7或9个不同的值，就将该区间划分为3个等宽子区间；(7?2,3,2) 例如区间：-10000—20000,该区间的最高有效位msd=10000,则该区间跨越了（20000-（-10000))/10000=3 个不同的值。如果一个区间最高有效位上包含2，4，或8个不同的值，就将该区间划分为4个等宽子区间；如果一个区间最高有效位上包含1，5，或10个不同的值，就将该区间划分为5个等宽子区间；将该规则递归的应用于每个子区间，产生给定数值属性的概念分层；对于数据集中出现的最大值和最小值的极端分布，为了避免上述方法出现的结果扭曲，可以在顶层分段时，选用一个大部分的概率空间。e.g. 5%-95% * * 协同计算与知识工程 (-$400 -$5,000) (-$400 - 0) (-$400 - -$300) (-$300 - -$200) (-$200 - -$100) (-$100 - 0) (0 - $1,000) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($2,000 - $5, 000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000) ($1,000 - $2, 000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) msd=1,000 Low=-$1,000 High=$2,000 第二步第四步第一步 -$351 -$159 profit $1,838 $4,700 Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max count (-$1,000 - $2,000) (-$1,000 - 0) (0 -$ 1,000) 第三步 ($1,000 - $

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘概念与技术————-医学演示课件-精选.ppt