数据探查与预处理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据探查与预处理

数据探查张英数据质量—数据集特征数据对应用的适合性 相关性、完备性、时效性数据的代表性(抽样偏倚)数据的可用性 属性含义、类型、取值单位、范围及约束说明数据的收集问题 数据的重复、缺失、不一致问题;是否存在孤立点数据质量—数据集数据对象(实例、记录、观测)属性(变量、维、特征)数据的集成程度数据的规模和稀疏性属性特征属性数据的测量问题测量误差:系统性误差(bias)和随机误差(噪声)测量精度:用标准差衡量测量精确度:取值单位(粒度)、有效数字缺失值与数据的稀疏性属性类型与测量水平字符型(定性)与数值型(定量)离散的与连续的属性类型注意:每种类型拥有其上方类型的性质和操作字符型属性的测量水平二元(BINARY)属性对称二元属性 例如:性别不对称二元属性 例如:是否欺诈,只关注非零值标称(NOMINAL)属性(类别属性)取值无序 例如:职业、专业、婚姻状况序数(ORDINAL)属性(定序变量)取值有序 例如:职称、满意度数值型属性的测量水平区间(INTERVAL)属性 (定距变量)例如:温度比率(RATIO)属性 (定比变量)例如:成绩、收入、利润、人数可以取字符型属性的测量水平缺失值和数据的稀疏性--排序的影响属性(变量)的基本统计描述属性取值的一般水平属性取值的离散程度分布的对称性与中心集中度属性间取值的相关性数据的中心趋势数值属性 均值 中位数 截尾均值 三均值字符属性 众数x8.08.08.08.08.08.08.019.08.08.08.0数据的离散程度数值属性极差、方差、标准差、平均绝对偏差四分位数与四分位极差QR=Q3-Q1变异系数字符属性取值个数 下截断点:Q1 -1.5*QR 上截断点:Q3+1.5*QR孤立点下截断点 或 孤立点上截断点? s= CV=数据分布的对称性偏度数据分布的中心集中度峰度为正正态分布,峰度为0峰度为负属性间的相关性相关系数夹角余弦A、B属性为标称属性或二元属性,其取值个数分别为c,rOij:实际频数eij:期望频数自由度:(r-1)*(c-1)原假设:A和B独立 性别与阅读兴趣相关?结论:性别与阅读兴趣相关安斯库姆四重奏一二三四xyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.89统计量数值x的均值9x的方差11y的均值7.50y的方差4.122或4.127x与y之间的相关系数0.816数据的图形表示等高线图平行坐标系图形矩阵星型坐标图Chernoff脸图……分位数图直方图或柱形图盒形图茎叶图饼图散点图、折线图分位数图Q3MQ1Q3Q1M直方图(柱形图)盒形图孤立点上截断点或最大值Q3中位数平均数Q1下截断点或最小值散点图多维图平行坐标系Chernoff脸图星型坐标图客户信息数据问题举例 部分属性值为空 少数客户的信息重复 部分客户的收入值为0 出生日期填写为1900.1.1 不同地区的客户分散在不同的数据集中 不同的属性分散在不同的数据集中 客户数量太大、属性个数太多 缺乏年龄属性 收入分布偏斜 地址对分析目标而言太详细 数据预处理数据清洗数据集成数据消减数据转换复杂数据类型的预处理:特征提取数据清洗处理错误或不一致的数据处理缺失值识别处理孤立点平滑噪声数据缺失值的处理不做处理,忽略缺失属性值(与具体算法有关)删除该条记录填补人工确定值或固定值均值(中位数)或众数同类别的均值(中位数)或众数预测值:利用分类预测技术推断出最大可能取值增加标识变量识别并处理孤立点识别常识统计规则聚类,分类…处理去除视为噪声,进行平滑保留噪声平滑分箱聚类回归分箱(Bin)等高分箱:每箱数据个数相同等宽分箱:每箱的箱距相同确定每箱数据个数分配替换排序确定箱数确定箱距等高分箱方法举例4,15,25,34,8,21,26,9,24,28,29,21(1)排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34(2)将数据分割为等高的3箱,每箱4个数据项 :- Bin 1: 4, 8, 9, 15- Bin 2: 21,

文档评论(0)

整理王 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档