第七讲数据预处理试卷.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七讲 数据预处理 目录 为什么要预处理数据 描述性数据汇总 数据清理 数据集成与变换 数据归约 离散化和概念分层生成 小结 一、为什么需要数据预处理? 现实世界中的数据是“肮脏”的 不完整: 缺乏必要的属性值,缺乏感兴趣的属性,或仅包含聚集数据 e.g., occupation=“” 含噪声的: 包含错误或存在偏离期望的孤立点 e.g., Salary=“-10” 不一致: 编码或命名不一致 e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C” 数据为什么会“肮脏” 不完整的数据来自 收集数据时,部分数据不可得 数据收集和数据分析时考虑的角度不同 人为、软硬件问题 含噪声数据来自数据的处理过程 收集 输入 传输 不一致的数据来自: 不同的数据源 不遵守数据间存在的依赖关系 为什么数据预处理很重要 没有高质量的数据,就不会有高质量的挖掘结果 高质量的决策必须建立在高质量的数据基础上 重复或缺失的数据可能导致不正确甚至误导的统计结果 数据仓库需要对数据进行一致的集成 数据抽取,清理与变换是创建数据仓库的主要工作 —Bill Inmon (The Father of Data Warehousing ) 数据预处理的主要任务 数据清理 填充缺失数据,平滑噪声数据,识别或剔除孤立点,解决不一致问题 数据集成 对多个数据库、数据立方体或文件做集成 数据转换 规范化与聚集 数据归约 得到数据集的压缩表示,它小的多,但可以得到相同或相近的结果。 数据离散化 数据归约的一部分,通过概念分层和数据离散化来归约数据,对数据型数据特别重要 数据预处理的形式 目录 为什么要预处理数据 描述性数据汇总 数据清理 数据集成与变换 数据归约 离散化和概念分层生成 小结 二、 数据的中心趋势与离散特征 动机:获得数据的总体印象至关重要 度量数据的中心趋势 度量数据的离散程度 基本描述数据汇总的图形显示 度量中心趋势 (算术)平均值Mean 加权(算术)平均 中位数Median: 一种整体度量 假定数据集的值是有序的,如果值个数是奇数,则中位数是有序集合的中间值,否则,中位数是中间两个数的平均值 在大型数据库中由插值得到近似的中位数 众数(模)Mode 众数是集合中出现频率最高的值 当最高频率对应多个不同值时,导致多个模,如单模态(nimodal),双模态(bimodal),三模态(trimodal),也可能没有模 经验公式 Symmetric vs. Skewed Data Median, mean and mode of symmetric, positively and negatively skewed data 度量数据的离散度 数值数据趋向离散的程度称为数据的离散度或方差 四分位数(Quartiles)、孤立点(outliers )与盒图(boxplots) 四分位数: Q1 (第25个百分数), Q3 (第75个百分数) 中间四分位数区间: IQR = Q3 – Q1 五数概括(Five number summary): min, Q1, M, Q3, max 孤立点:识别孤立点的常用规则是:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5*IQR处的值 盒图分析 盒图 数据被表示为一个盒 盒的端点在第一个和第三个四分位数上,使得盒的长度是中间四分位数区间IQR 中位数用盒内的线标记 盒外的两条线延伸到最小和最大观测值 方差(Variance) 与标准差(standard deviation) 方差 s2: (代数度量,在大型数据库中可伸缩的) 标准差 s是方差 s2的平方根 度量关于平均值的的离散,仅当选择平均值作为中心度量时使用 仅当不存在离散(即所有观测值都相等)时,s = 0,否则 s0 基本统计类描述的图形显示 直方图(频率直方图) 一种单变量图像方法 由一组矩形组成,这些矩形反映了类在给定数据中出现的计数或频率 分位数图Quantile Plot 显示所有数据(允许用户评估总的情况和不寻常的出现)。 绘出分位数信息 对于从小到大排序的数据中的Xi,fi 指出大约100 fi %的数据小于等于xi 分位数-分位数图 (Q-Q图) 对着另一个的对应分位数,绘制一个单变量分布的分位数。 允许用户观察从一个分布到另一个是否有移位 分店1的商品单价趋向于比分店2低 散布图(Scatter plot) 确定两个数值属性之间看上去是否有联系、模式或趋势。 一眼就能看出双变量数据在整个平面的分布,如,点的聚类,异常点等 每个值对被看成一个代数坐标对,并作为一个点画在平面上 数据量增大时

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档