数据探查与预处理课件.pptx

数据探查数据质量数据相关性、完备性、可用性数据的时间特征数据集成程度数据的规模数据特征缺失值类型,取值单位基本统计特征数据对象(实例、记录、观测)属性(变量、维、特征)字符型(定性属性)二元(BINARY)属性对称二元属性 例如:性别不对称二元属性 例如:是否欺诈标称(NOMINAL)属性(类别属性)(定类变量)取值无序 例如:职业、专业、婚姻状况序数(ORDINAL)属性(定序变量)取值有序 例如:职称、满意度数值型(定量属性)区间(INTERVAL)属性 (定距变量)例如:温度比率(RATIO)属性 (定比变量)例如:成绩、收入、利润、人数基本统计描述属性取值的一般水平属性取值的离散程度分布的对称性与中心集中度属性间取值的相关性数据的中心趋势数值属性 均值 中位数 截尾均值 三均值字符属性 众数x8.08.08.08.08.08.08.019.08.08.08.0数据的离散程度数值属性极差、方差、标准差、平均绝对偏差四分位数与四分位极差QR=Q3-Q1变异系数字符属性取值个数 下截断点:Q1 -1.5*QR 上截断点:Q3+1.5*QR孤立点下截断点 或 孤立点上截断点? s= CV=数据分布的对称性偏度数据分布的中心集中度峰度为正正态分布,峰度为0峰度为负属性间的相关性相关系数A、B属性为标称属性或二元属性,其取值个数分别为c,rOij:

文档评论(0)

1亿VIP精品文档

相关文档