- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘作业答案
数据挖掘作业答案
第二章 数据准备
5.推出在[-1,1]区间上的数据的最小-最大标准化公式。
解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:
(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)
化简得:v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA
6.已知一维数据集X={-5.0 , 23.0 , 17.6 , 7.23 , 1.11},用下述方法对其进行标准化:
a) 在[-1,1]区间进行小数缩放。
解:X’={-0.050 , 0.230 , 0.176 , 0.0723 , 0.0111}
b) 在[0,1]区间进行最小-最大标准化。
解:X’={0 , 1 , 0.807 , 0.437 , 0.218 }
c) 在[-1,1]区间进行最小-最大标准化。
解:X’={-1 , 1 , 0.614 , -0.126 , 0.564}
d) 标准差标准化。
解:mean=8.788 sd=11.523
X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666}
e) 比较上述标准化的结果,并讨论不同技术的优缺点。
解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整个数据集确定最小最大数值,而且最小最大值的专家估算可能会导致标准化值的无意识的集中。标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。
8.已知一个带有丢失值的四维样本。
X1={0,1,1,2}
X2={2,1,*,1}
X3={1,*,*,-1}
X4={*,2,1,*}
如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少?
解:X1 “人工”样本的数量为 1
X2 “人工”样本的数量为 3
X3 “人工”样本的数量为 9
X4 “人工”样本的数量为 9
所以“人工”样本的数量为1×3×9×9=243
10.数据库中不同病人的子女数以矢量形式给出:
C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}
应用标准统计参数——均值和方差,找出C中的异常点:
mean=3.9286 sd=4.4153
在 3个标准差下的阈值:
阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]
根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174]
C中的异常点有:-2
在 2个标准差下的阈值:
阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]
根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758]
C中的异常点有:-2, 15
11.已知的三维样本数据集X:
X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。
在下述条件下用基于距离技术找出异常点:
距离阈值d≥4,非邻点样本的阈值部分p≥3
距离阈值d≥6,非邻点样本的阈值部分p≥2
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X1 4.5826 5.1962 6.1644 3.7417 4.1231 4.1231 10.4881 2.2361 3.742 X2 1.4142 3.6056 3.3166 3.7417 7.7417 7.8102 5.0990 2.236 X3 2.2361 3.6056 4.6904 5.0990 8.0623 5.4772 3.0 X4 4.6904 6.4031 7.1414 9.2736 6.0828 4.690 X5 2.2360 4.1231 7.0711 5.3852 1.414 X6 2.4495 6.5574 6.0 1.732 X7 8.0623 5.4772 3.0 X8 12.124 6.928 X9 5.196
P(d≥4) P(d≥6) X1 6 2 X2 4 2 X3 5 1 X4 7 5 X5 4 1 X6 5 3 X7 7 3 X8 9 9 X9 8 3
文档评论(0)