- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据处理与分析
第二章 数据预处理
2
数据及数据类型
目录
数据统计特性
数据预处理
weka中的数据预处理
3
2.1 数据及数据类型
相关概念
数据
狭义:数字 。
广义:数据对象及其属性的集合,其表现形式可以是数字、符号、文字、图像或是计算机代码等等。
属性
(也称为特征、维或字段),是指一个对象的某方面性质或特性。一个对象通过若干属性来刻画。
数据集
数据对象的集合(同特征或同属性)
4
2.1 数据及数据类型
属性
案例:包含电信客户信息的样本数据集
客户编号
客户类别
行业大类
通话级别
通话总费用
…
N22011002518
大客户
采矿业和一般制造业
市话
16352
…
C14004839358
商业客户
批发和零售业
市话+国内长途(含国内IP)
27891
…
N22004895555
商业客户
批发和零售业
市话+国际长途(含国际IP)
63124
…
3221026196
大客户
科学教育和文化卫生
市话+国际长途(含国际IP)
53057
…
D14004737444
大客户
房地产和建筑业
市话+国际长途(含国际IP)
80827
…
︰
︰
︰
︰
︰
…
对象
数
据
集
5
2.1 数据及数据类型
属性类型
属性类型
描述
例子
操作
分类的
(定性的)
标称
其属性值只提供足够的信息以区分对象。这种属性值没有实际意义。
颜色、性别、产品编号
众数、熵、
列联相关。
序数
其属性值提供足够的信息以区分对象的序。
成绩等级(优、良、中、及格、不及格),年级,职称,学历
中值、百分位、秩相关、符号检验。
数值的
(定量的,可以是整数值或连续值 )
区间
其属性值之间的差是有意义的。
日历日期、摄氏温度
均值、标准差
比率
其属性值之间的差和比率都是有意义的。
长度、时间和速度
几何平均、调和平均、百分比变差
6
2.1 数据及数据类型
数据集特性
维度(Dimensionality)
指数据集中的对象具有的属性个数总和
维度归约(reduction)(是指创建新属性,通过数据编码或数据变换,将一些旧属性合并在一起以降低数据集的维度)(解决高维数据集中的维数灾难)
稀疏性(Sparsity)
指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0;非零项不到1%
超市购物记录或事务数据集、文本数据具有稀疏性
分辨率(Resolution)(也叫粒度)
不同分辨率下数据的性质不同
图像数据集,不同分辨率下得到的数据是不一样的
同一事务,从不同的角度(粒度不同),分析结果不同,如颜色,大小,形状等。
在数据挖掘领域,数据集有三个重要特性:
7
2.1 数据及数据类型
数据集类别
记录数据
事务数据或购物篮数据、数据矩阵、文本数据
基于图形的数据
万维网、化合物结构
有序数据
时序数据、序列数据、时间序列数据、空间数据、流数据
随着数据挖掘技术的发展和成熟,数据集的类型呈现出多样化趋势。
为了方便,我们将数据集分为三类:记录数据、图形数据和有序数据
8
2.1 数据及数据类型
记录数据
事务数据(Transaction Data)是一种特殊类型的记录数据,其中每个记录涉及一个项的集合。
典型的事务数据如超市零售数据,顾客一次购物所购买的商品的集合就构成一个事务,而购买的商品就是项。这种类型的数据也称作购物篮数据(Market Basket Data),因为记录中的每一项都是一位顾客“购物篮”中购买的商品。
事务ID
商品的ID列表
T100
Bread, Milk, Beer
T200
Soda, cup, Diaper
…
…
事务数据事例
9
2.1 数据及数据类型
记录数据
数据矩阵
如果一个数据集簇中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点,其中每个维代表描述对象的一个不同属性。
数据集可以用一个m×n的矩阵表示,其中m行,一个对象一行;n列,一个属性一列。
10
2.1 数据及数据类型
记录数据
文本数据(是数据矩阵的特殊情况):文档用词向量表示
每个词是向量的一个分量(属性)
每个分量的值是对应词在文档中出现的次数
11
2.1 数据及数据类型
图形数据:网络拓扑结构,网页链接,化合物结构
以图形的方式表示对象间的关系
网页链接
化合物结构
网络拓扑结构
12
2.1 数据及数据类型
有序数据:即具有跟时间或空间相关的属性,分序列数据,时序数据,空间数据
序列数据:个体项的序列集合,如,字母序列,顾客购物序列,web点击流,基因(DNA检查结果)等,这种序列可以与时间有关,也可以无关
13
时序数据(也称时态序列):是记录数据的扩充,是序列数据的特殊情况,每个记录里包含一个与这个记录相关的时间属性,同一指标按时间顺序记录的数据项,各个时
您可能关注的文档
最近下载
- 2025入团考试精选120题题库(含答案).pdf VIP
- 00015英语二课文精讲讲义(8).docx VIP
- 新型多功能电渣重熔用气体保护罩.pdf VIP
- GB_T50109-2014:工业用水软化除盐设计规范.pdf VIP
- 《运动损伤与康复》王国祥 7第七章 手腕部运动损伤与康复.ppt VIP
- 卡通小学生心理健康绿色PPT模板.pptx VIP
- 2025人民出版社供小学用中华民族大家庭全册教案教学设计.docx
- 2025年选拔副校长笔试题及答案.docx VIP
- 电堆科技(合肥)有限公司:构建生物CH₄到SAF的新产业生态.docx
- 四川省内江市第六中学2024-2025学年九年级上学期期中测试化学试卷(含答案).docx VIP
原创力文档


文档评论(0)