数据挖掘2015最新精品课程完整教案(第2讲)---数据预处置.ppt

数据挖掘2015最新精品课程完整教案(第2讲)---数据预处置.ppt

  1. 1、本文档共74页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘2015最新精品课程完整教案(第2讲)---数据预处置

直方图(3) 聚类(Clustering 1) 把数据对象划分为簇(cluster),使得同一簇中的数据尽量相似,簇与簇之间数据的差别尽量明显。 聚类质量的度量: 直径:两个簇中的两点之间的最大距离。 中心距离:簇与簇中心之间的距离。 聚类(2) 将数据集划分为聚类,然后通过聚类来表示数据集 如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界线模糊,则方法无效 数据可以分层聚类,并被存储在多层索引树中 聚类的定义和算法都有很多选择 抽样(Sampling) 抽样是进行数据选择时常用的一种技术。 既可用于对数据进行初期探索,也可用于最终的分析阶段。 分析整个数据集的开销太大或过于耗时。 有效的抽样要满足以下条件: 抽样数据几乎与原始数据具有相同的特征; 在抽样数据上进行挖掘,与在原始数据上进行挖掘的效果几乎相同。 抽样的类型(1) 无替代的随机抽样 每选择一个数据项,就从原始数据中删除该数据。 有替代的随机抽样 不从原始数据中删除被选作抽样的数据,同一个数据有可能被选择了多次。 抽样的类型(2) 聚类抽样 以簇为抽样单位。 分层抽样 对数据进行划分,在每个划分得到的部分中执行随机抽样 离散化(Discretization) 离散化 三种类型的属性值: 名称型:无序集合中的值;e.g. 颜色、职业 序数:有序集合中的值; e.g. 军衔、职称 连续值;e.g. 实数 离散化 通过将属性域划分为区间,减少给定连续属性值的个数 区间的标号可以代替实际的数据值 有些分类算法只接受离散属性值 通过离散化有效的规约数据 离散化可以在一个属性上递归的进行 离散化方法 等距:将连续型变量的取值范围均匀划成n等份,每份的间距相等。例如,客户订阅刊物的时间是一个连续型变量,可以从几天到几年。采取等距切分可以把1年以下的客户划分成一组,1-2年的客户为一组,2-3年为一组..,以此类分,组距都是一年。 等频:把观察点均匀分为n等份,每份内包含的观察点数相同。设该杂志订户共有5万人,等频分段需要先把订户按订阅时间按顺序排列,排列好后可以按5000人一组,把全部订户均匀分为十段。 等距和等频在大多数情况下导致不同的结果。 等距可以保持数据原有的分布,段落越多对数据原貌保持得越好。 等频处理则把数据变换成均匀分布,但其各段内观察值相同这一点是等距分割作不到的。 离散化方法 自然划分离散化方法 优化离散:需要把自变量和目标变量联系起来考察。切分点是导致目标变量出现明显变化的折点。常用的检验指标有卡方,信息增益,基尼指数,或WOE(要求目标变量是两元变量)、 基于粗糙集的离散化方法等 通过自然划分分段 将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。 聚类分析产生概念分层可能会将一个工资区间划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为[50000,60000] 自然划分的3-4-5规则常被用来将数值数据划分为相对一致,“更自然”的区间 自然划分的3-4-5规则 规则的划分步骤: 如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(7?2,3,2) 如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间; 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间; 将该规则递归的应用于每个子区间,产生给定数值属性的概念分层; 对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。e.g. 5%-95% 3-4-5规则——例子 (-$4000 -$5,000) (-$400 - 0) (-$400 - -$300) (-$300 - -$200) (-$200 - -$100) (-$100 - 0) (0 - $1,000) (0 - $200) ($200 - $400) ($400 - $600) ($600 - $800) ($800 - $1,000) ($2,000 - $5, 000) ($2,000 - $3,000) ($3,000 - $4,000) ($4,000 - $5,000) ($1,000 - $2, 000) ($1,000 - $1,200) ($1,200 - $1,400) ($1,400 - $1,600) ($1,600 - $1,800) ($1,800 - $2,000) msd=1,000 Low=-$1,000 High=$2,000 第二步 第四步 第

文档评论(0)

泰山之颠 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档