数据挖掘入门27179.pptVIP

  • 5
  • 0
  • 约1.44万字
  • 约 92页
  • 2016-09-21 发布于江西
  • 举报
数据挖掘入门27179.ppt

* * 数据压缩 数据压缩:应用数据编码或变换,以便得到数据的归约或压缩表示 无损压缩:原数据可以由压缩数据重新构造而不丢失任何信息 字符串压缩是典型的无损压缩 现在已经有许多很好的方法但是它们只允许有限的数据操作 有损压缩:只能重新构造原数据的近似表示 影像文件的压缩是典型的有损压缩 典型的方法:小波变换、主要成分分析 * * 数值归约 数值归约:通过选择替代的、“较小”的数据表示形式来减少数据量 有参的方法 假设数据符合某些模型,通过评估模型参数,仅需要存储参数,不需要存储实际数据(孤立点也可能被存放) 典型方法:对数线性模型,它估计离散的多维概率分布 无参的方法 不存在假想的模型 典型方法:直方图、聚类和抽样 * * 直方图 类似于分箱技术,是一种流行的数据归约方式 将属性值划分为不相交的子集,或“桶” 桶安放在水平轴上,而桶的高度(和面积)是该桶所代表的值的平均频率。 每个桶只表示单个属性值,则称其为“单桶”。通常,“桶”表示给定属性的一个连续空间 可以通过编程,动态修改部分参数,进行合理构造。 count 5 10 15 20 25 30 1 2 3 4 5 6 7 8 9 10 1-10 11-20 21-30 5 10 15 20 25 13 25 15 Price Price count * * 主要内容 为什么需要数据预处理? 数据清洗 数据集成与转换 数据

文档评论(0)

1亿VIP精品文档

相关文档