数据挖掘 第二章 认识数据总结.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 认识数据数据的统计描述概念:数据对象,属性类型,属性 (维,特征,变量,标称 分类,枚举,二元/序数 /数值 区间标度/比率标度 ,定性/定量,连续/离散)。数据对称性和中心趋势度量:均值(Mean):x算术均值,xi是观测值/样本,数值型;受极端值,倾斜数据影响加权均值:x加权算术均值,权值wi描述对应观测值的意义,重要性或出现频率等;优劣同上。截尾均值:丢弃高低极端值后的均值中位数(Median):应用于数值数据,把所有数值数据排序,位于有序队伍正中的数据;计算时间复杂度高于算术均值,不受极端值影响;众数(Mode):多个众数,单峰/多峰,每个数据出现一次,则没有众数;不受极端值影响,计算简单,多用于非数值型数据,可靠性差;中列数(Midrange):最大和最小值的均值;易受极端值影响,计算简单,应用于数值型数据数据对称性:算术均值和众数之差用来度量偏态(正负),偏态skewness = Mean ? Mode 数据散布度量:第k个q分位数:把排好序的样本,均分为q等分,子集的边界可能就是分位数;在有序样本中的下标计算:?Nkq?,取上整,k = 1, 2,..., q-1。单个值描述分布;中位数,四分位数,百分位数常使用,Q3-Q1四分位数极差(IRQ,用于判定盒图的离群点);五数概括:最小值,Q1,Q2,Q3,最大值;用均匀分布的5个点来描述分布,不是单个值;用于描述倾斜数据的分布;盒图:盒的上下边界是Q3,Q1,中位数是盒内线,盒外胡须可延伸到;可以看成是直观地表示了五数概括;计算时间O(nlogn);方差:标准差:当均值作为中心趋势度量时,适用。大部分观测样本,其偏离中心不会超过很多倍标准差;统计描述的图形显示:分位数图:用来观察单变量数据分布,数据值低于或等于在一个单变量分布中独立的变?量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的?值(纵轴)相对于它们的分位数(横轴)被描绘出来;分位数-分位数图:纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照?两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在?该线以上的点表示在?y?轴上显示的值的分布比?x?轴的相应的等同分位数对应的值?的分布高。反之,对落在该线以下的点则低。直方图:直方图(数值型属性),频率直方图,条形图(标称型属性),概率密度函数;横坐标是变量的取值(或者类别);纵坐标是变量出现的次数;桶 (bucket)/箱 (bin),bin 的宽度。可以用来比较多组数据分布的差异具有相同的盒图/boxplot,但是数据的分布完全不一样;直方图具备更强的描述能力;散点图(一般超过四维就不太有效了):绘法:两个数值型变量的任何一组取值,看成一个二维坐标;用于:描述两个数值变量/数值型属性之间是否存在关系/模式/趋势;解释:两个变量(线性)相关,可能是正相关,也可能是负相关;相关性的理解:知道一个变量的值,能大致(用直线)估计出另一个变量的值。基于像素的可视化技术:几何投影可视化技术:散点图矩阵:平行坐标:横坐标的每个取值代表一维,n维数据有n个纵坐标,一个纵坐标上标记出对应维的各种取值从左到右的一条折线对应于表中的一个数据(元组/行),可用不同颜色折线区分能看出每个维的数据分布情况主要局限性:平行坐标在数据较多时,折线太密,影响可读性基于图符的可视化技术:使用少量图符表示多维数据值,两个例子切尔诺夫脸和人物线条画层次可视化技术:世界中的世界:分为多层世界,每个世界的维数不超过 3 维;最内层的世界是个 3D 散点图;最内层世界在它的直接(相邻)外部世界 (另外三维属性构成的 3D 散点图)中就是一个点;依次类推。树图:把层次数据显示成嵌套矩形的集合。复杂数据的可视化:文本数据,标签云(tag cloud),标签字体的大小,色彩代表不同的含义,如次数/重要性等网络,社会网络,信息网络,技术网络等等,顶点的色彩/大小,边的色彩/粗细,顶点和边的权值等等,可以用来表示不同的关系,数据对象的重要性度量数据的相似性与相异性(书本P44-P52)第三章 数据预处理脏数据:缺失值(不完备的数据)、噪声数据(离群点)、不一致数据、故意、伪造数据(使用缺省值,即默认值)缺失值定义:某些元组在部分属性上没有被记录下来的值可能原因:数据产生设备故障;数据录入时因为觉得不重要或者理解错误,暂时放弃录入;因为和其它数据不一致而被删除。噪声数据定义:被测变量的随机误差或方差产生原因:产生数据的仪器设备精度不够;数据录入错误;数据传输误差;......(重复/不一致数据)

文档评论(0)

fg09h0as + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档