第 3 章 认识数据.pptx

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据挖掘与机器学习第3章认识数据

本章内容属性及其类型数据的基本统计描述数据可视化数据对象的相似性度量28十月20242

1.属性及其类型属性:(Attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维(Dimension)、特征(Feature)和变量(Variable)表示相同的含义,可以在不同场合互换使用。属性类型:属性的取值范围决定了属性的类型。28十月20243

1.属性及其类型1.标称属性标称属性(NominalAttribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又可称为是分类的(Categorical)。标称属性的值是枚举的,可以用数字表示这些符号或名称。常见的标称属性如姓名、籍贯、邮政编码或婚姻状态等。标称属性的值不仅仅是不同的名字,它提供了足够的信息用于区分对象。28十月20244

1.属性及其类型2.二元属性二元属性(BinaryAttribute)是标称属性的特例,也是一种布尔属性,对应0和1两个状态。二元属性分为对称的和非对称的。如果属性的状态结果是同等重要的,如抛硬币的结果状态,则该属性是对称的二元属性。一个非对称的二元属性其状态的结果不是同样重要的,如病毒检测的阳性和阴性结果。为了方便,用1对重要结果(通常是稀有的)编码,另一个用0编码。28十月20245

1.属性及其类型3.序数属性序数属性(OrdinalAttribute)的可能值之间存在有意义的序或秩评定,但是相继值之间的差是未知的。常见的序数属性如上衣的尺寸有S、M、L、XL,可以用数字如1、2、3、4分别对应属性的取值。由于序数属性是有序的,它的中位数是有意义的,因此序数属性的中心趋势度量可以是众数和中位数。28十月20246

1.属性及其类型4.数值属性数值属性(NumericAttribute)是可以度量的量,用整数或实数值表示,常见的数值属性如年龄。数值属性可以是区间标度的或比率标度的。区分区间标度和比率标度的原则是该属性是否有固有的零点,如摄氏温度没有固定的零点,其比值没有意义。所以是区间标度属性,而开式温度有固有的零点,比值有意义,是比率标度属性。28十月20247

2.数据的基本统计描述把握数据的分布对于成功的数据预处理是至关重要的。基本的数据统计描述可以识别数据的性质,并凸显哪些数据应被视为噪声或离群点。数据的描述性统计主要包括数据的集中趋势、离中趋势、相对离散程度和分布的形状四个方面。28十月20248

2.数据的基本统计描述中心趋势度量:在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。中心趋势度量就是寻找数据水平的代表值或中心值。中心趋势度量包括均值、中位数、众数和中列数。1.均值:数据集“中心”的最常用的数值度量是(算术)均值。均值是描述数据集的最常用统计量,但它并非度量数据中心的最佳方法,主要原因是均值对噪声数据很敏感。28十月20249

2.数据的基本统计描述2.中位数:中位数(Median)又称中点数或中值。在概率论与统计学中,中位数一般用于数值型数据。在数据挖掘中可以把中位数推广到序数型数据中。当数据量很大时,中位数的计算开销会很大,此时可以采用近似估计的方法。假定数据可以根据数值划分为区间,并且知道每个区间的数据个数,可以使用如下公式计算中位数:28十月202410

2.数据的基本统计描述例:某企业50名工人加工零件的数据如表3-1所示,计算加工零件数值的中位数。28十月202411

2.数据的基本统计描述3.众数:众数(Mode)是一组数据中出现次数最多的数值。具有一个、两个或三个众数的数据集分别称为单峰(Unimodal)、双峰(Bimodal)和三峰(Trimodal)。一般具有两个或以上众数的数据集是多峰的(Multimodal)。在极端情况下,如果每个数值只出现一次则它没有众数。对于非对称的单峰型数据集,一般有下面的经验关系:28十月202412

2.数据的基本统计描述4.中列数:中列数(Midrange)是数据集中的最大值和最小值的平均值,也可以度量数值数据的中心趋势。利用pandas统计中位数、均值和众数。28十月202413

2.数据的基本统计描述数据散布度量用于评估数值数据散布或发散的程度。散布度量的测定是对统计资料分散状况的测定,即找出各个变量值与集中趋势的偏离程度通过度量散布趋势。数据散布度量包括极差、分位数、四分位数、百分位数和四分位数极差。方差和标准差也可以描述数据分布的散布。28十月202414

2.数据的基本统计描述极差、四分位数和四分位数极差极差(Range)又称范围误差或全距,是一组观测值的最

文档评论(0)

弹弹 + 关注
实名认证
内容提供者

人力资源管理师、教师资格证持证人

该用户很懒,什么也没介绍

版权声明书
用户编号:6152114224000010
领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

相关文档