小数定标规范化举例 例:假定A的值由-986~917。A的最大绝对值为986,使用小数定标规范化 用1000(j=3)除这个值,这样,-986规范为-0.986,而917规范为0.917 * * 协同计算与知识工程 * 数据变换——属性构造(特征构造) 特征提取(Feature Extraction) 由原始数据创建新的特征集称为特征提取。由于原始数据中有许多信息,但其形式不适合数据挖掘算法。在这种情况下,就要由原始的一个或多个特征来构造新的特征。 例如:我们可能根据电信客户在一个季度内每个月的消费金额特征构造季度消费金额特征。(将每个月的消费金额相加) * 协同计算与知识工程 * 数据变换——离散化与概念分层 离散化 通过将属性域划分为区间,减少给定连续属性值的个数(如学生成绩数据),区间的标号可以代替实际的数据值 概念分层 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 * 协同计算与知识工程 离散化 三种类型的属性值: 名称型:无序集合中的值;e.g. 颜色、职业 序数:有序集合中的值; e.g. 军衔、职称 连续值;e.g. 实数 离散化 数值型数据的离散化 分类数据的离散化 * * 协同计算与知识工程 数值数据的离散化和概念分层生成 等宽离散化 等深(等频)离散化 聚类分析 基于熵的离散化 通过自然划分分段 * * 协同计算与知识工程 * 无监督离散化 原始数据 等宽离散化 等频离散化 K-means 等宽方法是将属性值域划分成相同宽度的区间。可能造成有的区间包含许多实例,有的区间很少实例。 等频方法将相同数量的对象放到每个区间。 * 协同计算与知识工程 * 有监督离散化 基于熵的离散化(Entropy based approach) * 协同计算与知识工程 通过自然划分分段 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000,60000] 自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间 * * 协同计算与知识工程 自然划分的3-4-5规则 规则的划分步骤: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7?2,3,2) 例如区间:-10000—20000,该区间的最高有效位msd=10000,则该区间跨越了(20000-(-10000))/10000=3 个不同的值。 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层; 对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95% * * 协同计算与知识工程 (-$400 -$5,000) (-$400 - 0) (-$400 - -$300) (-$300 - -$200) (-$200 - -$100) (-$100 - 0) (0 - $1,000) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($2,000 - $5, 000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000) ($1,000 - $2, 000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) msd=1,000 Low=-$1,000 High=$2,000 第二步 第四步 第一步 -$351 -$159 profit $1,838 $4,700 Min Low (i.e, 5%-tile) High(i.e, 95%-0 tile) Max count (-$1,000 - $2,000) (-$1,000 - 0) (0 -$ 1,000) 第三步 ($1,000 - $
您可能关注的文档
- 首次星级旅馆评鉴说明会演示课件-精选.ppt
- 授课班级:初三(1)班演示课件-精选.ppt
- 授受关系动词演示课件-精选.ppt
- 瘦肉精专项监测工作要点及抽样方法()演示课件-精选.ppt
- 书山有路勤为径,学海无崖苦作舟321演示课件-精选.ppt
- 输血相关法律法规与医院输血科建设要求演示课件-精选.ppt
- 属性论方法简介版演示课件-精选.ppt
- 术后并发症-医学演示课件-精选.ppt
- 术后病人饮食指导-PPT(精)-医学演示课件-精选.ppt
- 术后出血的护理-医学演示课件-精选.ppt
- 25-26学年政治(部编版)选择性必修第二册课件:第1单元 周清1 民法中的人身权及财产权.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:1.4.1 权利保障 于法有据.pptx
- 2025北京丰台区高二(上)期中地理(A卷)含答案.docx
- 2025北京三帆中学初三(上)开学考英语试题含答案.docx
- 2025北京一零一中初三9月月考语文试题含答案.docx
- 2025北京海淀区初三(上)期中道法试题含答案.docx
- 2025北京丰台区高一(上)期中政治(A卷)含答案.docx
- 25-26学年政治统编版必修4课件:3.3 唯物辩证法的实质与核心.pptx
- 25-26学年政治统编版必修4课件:7.2 正确认识中华传统文化.pptx
- 湖北省部分高中2026届高三上学期二模联考 历史试卷.docx
最近下载
- 高一【美术(人美版)】人作与天开——中国古典园林艺术-教学设计.pdf VIP
- 同济大学《高等数学》授课教案.pdf VIP
- 美国联邦法规.docx VIP
- 嗜酸性肉芽肿性多血管炎诊治多学科专家共识(2025年版).pptx VIP
- 公安看守所智能化安防项目设计方案.pdf VIP
- 23.周亚夫军细柳复习课件.pptx VIP
- 一把手 2025年度在带头强化政治忠诚、提高政治能力;在带头固本培元、增强党性;在带头敬畏人民、敬畏组织、敬畏法纪;在带头干事创业、担当作为;在带头坚决扛起管党治党责任五个带头方面存在的问题.docx VIP
- 土壤导则培训.pptx VIP
- 2025年妇女保健科工作总结暨工作计划.docx
- 河流与湖泊第一课时课件-2025-2026学年八年级地理上学期(人教版2024).pptx VIP
原创力文档

文档评论(0)