- 7
- 0
- 约8千字
- 约 22页
- 2021-10-07 发布于辽宁
- 举报
实验 81 数据分析
一、实验目得
理解数据挖掘得一般流程。
掌握数据探索与预处理得方法。
使用PHSTAT软件,结合Excel对给定得数据进行手工预处理。
使用 WEKA 软件,对给定得数据进行预处理。
二、实验内容
在 D 盘中以“班级学号姓名”命名一个文件夹 ,将下发得数据拷贝到该文件夹 下,根据不同要求 ,对下发得文件进行相应得数据分析与处理。
0 、 数据集介绍
银行资产评估数据bankdata、xlsx,数据里有12个属性分别就是id(编号), age(年龄),sex(性别),region(地区),ine(收入),married(婚否),children(子女数), car( 就是否有私家车 ), save_act( 就是否有定期存款 ), current_act( 就是否有活期账 户 ), mortgage( 就是否有资产抵押 ), pep( 目标变量 , 就是否买个人理财计划 Personal Equity Plan) 。
数据探索之数据质量分析
新建“ 1数据质量分析、xlsx”文件,导入“ 0bank_data、xlsx ”文件数据请 您用EXCEL对其进行数据质量分析。
【要求】
(1)请找出bank_data、xlsx表中得含有缺失值得记录。
⑵请您用PHSTAT软件绘制“ine(收入)”属性得箱线图与点比例图,筛选出异 常值。
(3)计算Whisker上限、Whisker下限,并利用高级筛选,找出该属性得异常值 记录。
【提示】
(1)请找出bank_data、xlsx表中得含有缺失值得记录。
方法1:条件格式法
1) 选取A1:L601区域。
2) 开始 条件格式 新建规则(N)、、、,在新建格式规则对话框中,选择空 值。如图81所示。
图81 “新建格式规则”对话框
3)点击“格式(F)…”按钮,设置特殊格式,高亮显示。如图82所示
方法2:
1)缺失值定位。“开始”
“编辑/查找与选择”
“定位”对话框
疋
位条件”按钮。
2) “定位条件”对话框
图82设置条件格式旳空曲£1”批 a:\ii鼻*声71:匚1芬畔址应)图
图82设置条件格式
旳空曲£1”
批 a:\ii
鼻*声71:匚1
芬畔址应)
图83 “转到(G)…”下拉菜单命令
与“定位条件”对话框
⑵绘制“ine”属性箱线图与点比例图。高级筛选出异常值。
ine ”属性,如果数据区域包“加载项 / PHStat ” “ Descriptive Statistics ” “
ine ”属性,如果数据区域包
Scale Diagram…“命令。如图84所示。注意选中“
括标题行(E1单元格),则勾选下面得First cell con tai ns label 选项,否则,不用勾选
First cell contains label 选项。
翊; m iia
翊; m iia 畀
r*U?
■
1
DflEniDH-hUing
Dsi £cW? OvgFMi-.
Probdatty fk Praia. Dhtrfaiftiani
F-wqMvncy l^iriribubDr^.
金 AoiygorK
1^*Wb fl Art
* CfwplffS-
O?4#iipb Tm?
T^btai、4*
TMp-^npb Tpfm
ThDMv|- T^bha At fl—ria
T?A=*EjWHp号 TiMK l^uMH1Ara*d □lUj
h^llpie-Sample- ^wn-
CcrfiraiChiHft-
UtBlini
B
(a) (b)
風??.J ?皿第 fil? Si^ 5 WxmDim
風??.J ?皿第 f
il? Si^ 5 Wxm
Dim 冲特?1^伽 ■-
GwMn ?■
BWigL
DMjnn-UdiiH|| ?
Dot ^cmIh Nb^twtl-
Prothib扁 B. *ob- ■
Freq^tflcj Oiff^hiKn?
Scmplngi 卜
出從即 r BL Wfgo5-.
Csrrfch fev falBnd ■ ■
“■?!■ Hm._
ktt! *■
B4h^4lM*L44^ 伪!* 好.
6 .14 峠昭 TMH ?
T||^i峠鼻 ffwn.
T*fh lOs^wnTiM* DNd ?
Tmo-IAIh^ TdkiM B. CHmIol-
T?l5 他i/百谒Hzwd 2ul ■
Miilfcpte-^jm^ieTesK ?
CjEntrcJ iZliarti. ■
Bjeg*esto* ?
IHlMet 卜
tfwf FTMJ-
tl阳恤阳如^
Dot Scale Diagram
Heb
Cancel
Datd
Variable 匚白I RangE: tefe!5E52:$E$M
原创力文档

文档评论(0)