- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据探查张英21四月2025
数据质量21四月2025数据收集和测量问题收集问题测量问题04数据的规模及抽样偏倚05数据对应用的适合性:相关性、完备性、时效性01数据集成程度03数据的可用性:属性含义及其取值的可理解性02
数据特征21四月2025属性类型与测量水平定性与定量、分散与连续数据的粒度与单位缺失值与数据的稀疏性基本统计特征数据对象(实例、记录、观测)属性(变量、维、特征)
字符型(分类属性、定性属性)21四月2025二元(BINARY)属性对称二元属性例如:性别不对称二元属性例如:是否欺诈,只关注非零值标称(NOMINAL)属性(类别属性)(定类变量)取值无序例如:职业、专业、婚姻状况序数(ORDINAL)属性(定序变量)取值有序例如:职称、满意度
数值型(定量属性)21四月2025区间(INTERVAL)属性(定距变量)例如:温度比率(RATIO)属性(定比变量)例如:成绩、收入、利润、人数
属性类型的不同操作特征21四月2025注意:每种类型拥有其上方类型的性质和操作
缺失值和数据的稀疏性
-排序的影响
基本统计描述21四月2025213属性取值的一般水平属性取值的离散程度分布的对称性与中心集中度4属性间取值的相关性
数据的中心趋势21四月2025数值属性均值中位数截尾均值三均值字符属性众数x8.08.08.08.08.08.08.019.08.08.08.0
数据的离散程度21四月2025数值属性极差、方差、标准差、平均绝对偏差四分位数与四分位极差QR=Q3-Q1变异系数字符属性取值个数下截断点:Q1-1.5*QR上截断点:Q3+1.5*QR孤立点下截断点或孤立点上截断点CV=?
数据分布的对称性21四月2025偏度
数据分布的中心集中度21四月2025峰度为负正态分布,峰度为0峰度为正
属性间的相关性21四月2025相关系数夹角余弦A、B属性为标称属性或二元属性,其取值个数分别为c,rOij:实际频数eij:期望频数自由度:(r-1)*(c-1)原假设:A和B独立
性别与阅读兴趣相关?结论:性别与阅读兴趣相关
安斯库姆四重奏21四月2025一二三四xyxyxyxy10.08.0410.09.1410.07.468.06.588.06.958.08.148.06.778.05.7613.07.5813.08.7413.012.748.07.719.08.819.08.779.07.118.08.8411.08.3311.09.2611.07.818.08.4714.09.9614.08.1014.08.848.07.046.07.246.06.136.06.088.05.254.04.264.03.104.05.3919.012.5012.010.8412.09.1312.08.158.05.567.04.827.07.267.06.428.07.915.05.685.04.745.05.738.06.89统计量数值x的均值9x的方差11y的均值7.50y的方差4.122或4.127x与y之间的相关系数0.816
数据的图形表示21四月2025分位数图直方图或柱形图盒形图茎叶图饼图散点图、折线图等高线图平行坐标系图形矩阵星型坐标图Chernoff脸图……
分位数图21四月2025MQ1Q3MQ1Q3
直方图(柱形图)21四月2025
盒形图21四月202501中位数02平均数03Q104Q305上截断点或最大值06下截断点或最小值07孤立点
散点图21四月2025
多维图21四月2025平行坐标系Chernoff脸图星型坐标图
客户信息数据问题举例21四月2025部分属性值为空收入为0出生日期填写为不同地区的客户分散在不同的数据集中不同的属性分散在不同的数据集中客户数量太大、属性个数太多缺乏年龄属性收入分布偏斜地址对分析目标而言太详细
数据预处理21四月20250102030405060708数据清洗数据集成数据消减数据转换分析方法复杂数据类型的预处理数据质量需求
数据清洗21四月202501处理错误或不一致的数据03识别处理孤立点02处理缺失值04平滑噪声数据
缺失值的处理21四月2025忽略该条记录填补人工确定值或固定值均值(中位数)或众数同类别的均值(中位数)或众数预测值:利用分类预测技术推断出最大可能取值增加标识变量
识别并处理孤立点21四月2025常识统计规则聚类,…识别01去除视为噪声,进行平滑处理02
噪声平滑21四月2025分箱聚类回归
分箱(Bin)21四月2025等高分箱:每箱
文档评论(0)