数据挖掘入门讲义.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * 数据压缩 数据压缩:应用数据编码或变换,以便得到数据的归约或压缩表示 无损压缩:原数据可以由压缩数据重新构造而不丢失任何信息 字符串压缩是典型的无损压缩 现在已经有许多很好的方法但是它们只允许有限的数据操作 有损压缩:只能重新构造原数据的近似表示 影像文件的压缩是典型的有损压缩 典型的方法:小波变换、主要成分分析 * * 数值归约 数值归约:通过选择替代的、“较小”的数据表示形式来减少数据量 有参的方法 假设数据符合某些模型,通过评估模型参数,仅需要存储参数,不需要存储实际数据(孤立点也可能被存放) 典型方法:对数线性模型,它估计离散的多维概率分布 无参的方法 不存在假想的模型 典型方法:直方图、聚类和抽样 * * 直方图 类似于分箱技术,是一种流行的数据归约方式 将属性值划分为不相交的子集,或“桶” 桶安放在水平轴上,而桶的高度(和面积)是该桶所代表的值的平均频率。 每个桶只表示单个属性值,则称其为“单桶”。通常,“桶”表示给定属性的一个连续空间 可以通过编程,动态修改部分参数,进行合理构造。 count 5 10 15 20 25 30 1 2 3 4 5 6 7 8 9 10 1-10 11-20 21-30 5 10 15 20 25 13 25 15 Price Price count * * 主要内容 为什么需要数据预处理? 数据清洗 数据集成与转换 数据归约 数据离散化与概念层次的构建 本章小结 * * 数据离散化和概念层次 属性值分类 枚举型 有序的 无序的 连续型:如 Real类型 数据离散化 对于一个特定的连续属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数。 概念层次 利用高层的概念(如儿童、青年、中年、老年等)来代替低层的实际数据值(实际年龄),以减少属性值的个数。 * * 数值数据的离散化和概念分层建立的方法 分箱(Binning) 直方图分析 聚类分析的方法 根据自然分类进行分割 * * 分箱方法:一种简单的离散化技术 相同宽度 (距离)数据分割 将数据分成N等份,各个等份数据之间具有相同的距离 如果 A 和 B 分别为属性值中的最大值和最小值,那么各个数据等份之间的距离为:W = (B-A)/N. 异常点将会扮演很重要的角色 倾斜的数据不能很好的解决 相同深度 (频率)数据分割 将数据分成N等份,各个等份具有相同的数据个数。 具有较好的可伸缩性 适合于数据分类的情况 * * 离散化:直方图方法 将数据分割到若干个桶之中,用桶中的平均值(或求和等)来表示各个桶。 可以通过编程,动态修改部分参数,进行合理构造。 count 5 10 15 20 25 30 1 2 3 4 5 6 7 8 9 10 1-10 11-20 21-30 5 10 15 20 25 13 25 15 Price Price count * * 离散化:聚类分析方法 将数据按照“类内最大相似度,类间最小相似度的原则”对数据进行有效聚类 利用聚类的中心点来表示该类所包含的对象 数据聚类将非常有效,但是必须保证数据中没有噪音数据 * * 按照自然分类进行数据分割 利用3-4-5 法则对数字型数据分类,将数据分成若干个“自然”的区间: 如果在所有数字的最高位覆盖 3, 6, 7或9个不同的值,则将数据分成3段。3(1,1,1) 6(2,2,2) 7(2,3,2) 9(3,3,3) 如果在所有数字的最高位覆盖 2, 4, 8个不同的值,则将数据分成4 段。 如果在所有数字的最高位覆盖 1, 5, 10个不同的值,则将数据分成 5 段。 * * 3-4-5 法则举例 例1:包含数据:101、110、203、222、305、315 方法:最高位包含3个值(1、2、3) 分成[100,200),[200,300),[300,400)三段 例2:包含数据:101、110、103、422、405、415,400 方法:最高位包含2个值(1、4) 分成[100,150),[150,200) ,[400,450) ,[450,500)四段 例3:包含数据:101、210、203、322、305、415,500 方法:最高位包含5个值(1、2、3、4、5) 分成[100,200),[200,300) ,[300,400) ,[400,500),[500,600)五段 * * 分类数据的概念分层 概念分层是由用户或专家对具有偏序关系的属性的一种层次关系的显式表示。也是一种数据分类的显式表示。 概念层次的获得 隐式存储于数据库中。如:地址。 由专家显式给出。 借助数据分析自动生成。 概念层次的表示 基于实例。如:{freshman, ..., senior}?undergraduate.; 基于数据库表

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

建筑工程师持证人

没啥好说的额

领域认证该用户于2024年10月16日上传了建筑工程师

1亿VIP精品文档

相关文档