数据处理与分析__第二章.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据处理与分析 第二章 数据预处理 2 数据及数据类型 目录 数据统计特性 数据预处理 weka中的数据预处理 3 2.1 数据及数据类型 相关概念 数据 狭义:数字 。 广义:数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像或是计算机代码等等。 属性 (也称为特征、维或字段),是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。 数据集 数据对象的集合(同特征或同属性) 4 2.1 数据及数据类型 属性 案例:包含电信客户信息的样本数据集 客户编号 客户类别 行业大类 通话级别 通话总费用 … N22011002518 大客户 采矿业和一般制造业 市话 16352 … C14004839358 商业客户 批发和零售业 市话+国内长途(含国内IP) 27891 … N22004895555 商业客户 批发和零售业 市话+国际长途(含国际IP) 63124 … 3221026196 大客户 科学教育和文化卫生 市话+国际长途(含国际IP) 53057 … D14004737444 大客户 房地产和建筑业 市话+国际长途(含国际IP) 80827 … ︰ ︰ ︰ ︰ ︰ … 对象 数 据 集 5 2.1 数据及数据类型 属性类型 属性类型 描述 例子 操作 分类的 (定性的) 标称 其属性值只提供足够的信息以区分对象。这种属性值没有实际意义。 颜色、性别、产品编号 众数、熵、 列联相关。 序数 其属性值提供足够的信息以区分对象的序。 成绩等级(优、良、中、及格、不及格),年级,职称,学历 中值、百分位、秩相关、符号检验。 数值的 (定量的,可以是整数值或连续值 ) 区间 其属性值之间的差是有意义的。 日历日期、摄氏温度 均值、标准差 比率 其属性值之间的差和比率都是有意义的。 长度、时间和速度 几何平均、调和平均、百分比变差 6 2.1 数据及数据类型 数据集特性 维度(Dimensionality) 指数据集中的对象具有的属性个数总和 维度归约(reduction)(是指创建新属性,通过数据编码或数据变换,将一些旧属性合并在一起以降低数据集的维度)(解决高维数据集中的维数灾难) 稀疏性(Sparsity) 指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1% 超市购物记录或事务数据集、文本数据具有稀疏性 分辨率(Resolution)(也叫粒度) 不同分辨率下数据的性质不同 图像数据集,不同分辨率下得到的数据是不一样的 同一事务,从不同的角度(粒度不同),分析结果不同,如颜色,大小,形状等。 在数据挖掘领域,数据集有三个重要特性: 7 2.1 数据及数据类型 数据集类别 记录数据 事务数据或购物篮数据、数据矩阵、文本数据 基于图形的数据 万维网、化合物结构 有序数据 时序数据、序列数据、时间序列数据、空间数据、流数据 随着数据挖掘技术的发展和成熟,数据集的类型呈现出多样化趋势。 为了方便,我们将数据集分为三类:记录数据、图形数据和有序数据 8 2.1 数据及数据类型 记录数据 事务数据(Transaction Data)是一种特殊类型的记录数据,其中每个记录涉及一个项的集合。 典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。这种类型的数据也称作购物篮数据(Market Basket Data),因为记录中的每一项都是一位顾客“购物篮”中购买的商品。 事务ID 商品的ID列表 T100 Bread, Milk, Beer T200 Soda, cup, Diaper … … 事务数据事例 9 2.1 数据及数据类型 记录数据 数据矩阵 如果一个数据集簇中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点,其中每个维代表描述对象的一个不同属性。 数据集可以用一个m×n的矩阵表示,其中m行,一个对象一行;n列,一个属性一列。 10 2.1 数据及数据类型 记录数据 文本数据(是数据矩阵的特殊情况):文档用词向量表示 每个词是向量的一个分量(属性) 每个分量的值是对应词在文档中出现的次数 11 2.1 数据及数据类型 图形数据:网络拓扑结构,网页链接,化合物结构 以图形的方式表示对象间的关系 网页链接 化合物结构 网络拓扑结构 12 2.1 数据及数据类型 有序数据:即具有跟时间或空间相关的属性,分序列数据,时序数据,空间数据 序列数据:个体项的序列集合,如,字母序列,顾客购物序列,web点击流,基因(DNA检查结果)等,这种序列可以与时间有关,也可以无关 13 时序数据(也称时态序列):是记录数据的扩充,是序列数据的特殊情况,每个记录里包含一个与这个记录相关的时间属性,同一指标按时间顺序记录的数据项,各个时

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档