- 9
- 0
- 约9.07千字
- 约 74页
- 2018-11-22 发布于河南
- 举报
数据挖掘2015最新精品课程完整课件(第2讲)---数据预处理
直方图(3) 聚类(Clustering 1) 把数据对象划分为簇(cluster),使得同一簇中的数据尽量相似,簇与簇之间数据的差别尽量明显。 聚类质量的度量: 直径:两个簇中的两点之间的最大距离。 中心距离:簇与簇中心之间的距离。 聚类(2) 将数据集划分为聚类,然后通过聚类来表示数据集 如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则方法无效 数据可以分层聚类,并被存储在多层索引树中 聚类的定义和算法都有很多选择 抽样(Sampling) 抽样是进行数据选择时常用的一种技术。 既可用于对数据进行初期探索,也可用于最终的分析阶段。 分析整个数据集的开销太大或过于耗时。 有效的抽样要满足以下条件: 抽样数据几乎与原始数据具有相同的特征; 在抽样数据上进行挖掘,与在原始数据上进行挖掘的效果几乎相同。 抽样的类型(1) 无替代的随机抽样 每选择一个数据项,就从原始数据中删除该数据。 有替代的随机抽样 不从原始数据中删除被选作抽样的数据,同一个数据有可能被选择了多次。 抽样的类型(2) 聚类抽样 以簇为抽样单位。 分层抽样 对数据进行划分,在每个划分得到的部分中执行随机抽样 离散化(Discretization) 离散化 三种类型的属性值: 名称型:无序集合中的值;e.g. 颜色、职业 序数:有序集合中的值; e.g. 军衔、职称 连续值;e.g. 实数 离散化 通过将属性域划分为区间,减少给定连续属性值的个数 区间的标号可以代替实际的数据值 有些分类算法只接受离散属性值 通过离散化有效的规约数据 离散化可以在一个属性上递归的进行 离散化方法 等距:将连续型变量的取值范围均匀划成n等份,每份的间距相等。例如,客户订阅刊物的时间是一个连续型变量,可以从几天到几年。采取等距切分可以把1年以下的客户划分成一组,1-2年的客户为一组,2-3年为一组..,以此类分,组距都是一年。 等频:把观察点均匀分为n等份,每份内包含的观察点数相同。设该杂志订户共有5万人,等频分段需要先把订户按订阅时间按顺序排列,排列好后可以按5000人一组,把全部订户均匀分为十段。 等距和等频在大多数情况下导致不同的结果。 等距可以保持数据原有的分布,段落越多对数据原貌保持得越好。 等频处理则把数据变换成均匀分布,但其各段内观察值相同这一点是等距分割作不到的。 离散化方法 自然划分离散化方法 优化离散:需要把自变量和目标变量联系起来考察。切分点是导致目标变量出现明显变化的折点。常用的检验指标有卡方,信息增益,基尼指数,或WOE(要求目标变量是两元变量)、 基于粗糙集的离散化方法等 通过自然划分分段 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000,60000] 自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间 自然划分的3-4-5规则 规则的划分步骤: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7?2,3,2) 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层; 对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95% 3-4-5规则——例子 (-$4000 -$5,000) (-$400 - 0) (-$400 - -$300) (-$300 - -$200) (-$200 - -$100) (-$100 - 0) (0 - $1,000) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($2,000 - $5, 000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000) ($1,000 - $2, 000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) msd=1,000 Low=-$1,000 High=$2,000 第二步 第四步 第
您可能关注的文档
- 四年级美术下册课件 学画农民画 4.ppt
- 培根《论读书》赏析.pptx
- 土剪切强度_实验.ppt
- 外国工艺美术史 古印度.ppt
- 大学无机化学第14章 卤素.ppt
- 家里如何快速地安装电信宽带——亲身经历.pptx
- 孙老师旅游企业投资与管理第二章.ppt
- 家长会课件:幸福的种子.ppt
- 导游语言技能..ppt
- 工程制图 常见平面图形的画法.ppt
- 03-2 2025年度民主生活会征求意见座谈会主持词.docx
- 03-1 2025年度民主生活会主持讲话提纲.docx
- 02-1 会前学习-《县以上党和国家机关党员领导干部民主生活会若干规定》相关要求.docx
- 在2025年度民主生活会上的总结讲话三篇.docx
- 在2025年度民主生活会上的总结讲话三篇 (3).docx
- 市委宣传部2025年度民主生活会查摆问题整改方案两篇.docx
- 在市行政审批和政务信息管理局机关2026年全体干部政绩观教育大会上的党课讲稿.docx
- X市应急管理局2026年度安全生产监督检查计划.docx
- 2025年度民主生活会领导班子对照检查材料(五个带头)三篇.docx
- 2025年度民主生活会“五个带头”个人对照检查材料三篇.docx
最近下载
- DB5115_T 06-2019 农村产权流转交易服务规范 土地经营权价值评估.docx VIP
- 国新资本有限公司相关岗位招聘16人备考考试题库含答案解析.docx VIP
- 《农村产权流转交易 抵(质)押融资规范》.pdf VIP
- 《农村产权流转交易 农村产权价值评估规范》.pdf VIP
- 循环水处理标准GB50050-2007.doc VIP
- 《DL T5068-2016火力发电厂化学设计技术规程.epub》.pdf
- 2011年高考湖北卷英语试题(真题).pdf VIP
- 国新资本有限公司相关岗位招聘16人备考考试试题有答案解析.docx VIP
- 2011年高考湖北卷语文试题(真题).pdf VIP
- 2026国新资本有限公司相关岗位招聘16人考试参考试题及答案解析.docx VIP
原创力文档

文档评论(0)