- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘原理与实践2016a答案
广东工业大学考试试卷 ( )答案
课程名称: 试卷满分 100 分
考试时间: 年 月 日 ( 第 周 星期 )
题 号
一
二
三
四
五
六
七
八
九
十
总分
评卷得分
评卷签名
复核得分
复核签名
3)深度为4进行划分,得到三个箱 (6,7,9,11),(12,18,20,21),(25,35,37,100)
边界值平滑后的结果为 (6,6,11,11),(12,12,21,21),(25,25,25,100)
2)已知数组:{13,15,16,16,19,20,20,21,22,22},
{13,15,16}{16,19,20}{20,21,22}{22}
边界平滑后的结果是:
{13,16,16}{16,20,20}{20,20,22}
2。(10分)
答:答案要求,需要通过举例的方式说明噪声数据产生的原因。
比如,在收集野外的气象数据的时候,每一个自动化收集站都会收集气压,气温,雨量,方向等数据。如果由于传感器灵敏度的原因,收集的数据会有误差,这些数据就属于噪声数据。
噪声数据处理的方法一般有处理方法一般有分箱,聚类,回归这些处理方法。(需要回答得更详细一点)
,
3.(10分)这是有一个有监督的分类挖掘任务。因此要解决以下几个问题:
采集数据的范围。应该在全国(全省)范围内进行分层抽样。样本需要来自不同层次的学校。
类标号列数据的获取,需要对参加过回答问题,并且考上了大学的学生,填写专业并回答
是否喜欢本专业。
需要回答使用了分类挖掘任务,并且简单 的回答挖掘 的过程。
4。(10分)某学校对入学的新生进行性格问卷调查,没有心理学家的参与,根据学生对问题的回答,把学生的性格分成了8个类别。请说明该数据挖掘任务是属于分类任务还是聚类任务?为什么?并利用该例说明聚类分析和分类分析的异同点。
答:是属于聚类任务。
两者的区别主要是数据中是否有类标号。
从数据方面来说,分类挖掘的数据必须有类标号,也就是有专家参与。
从算法上来说,分类主要是建立决策树模型,而聚类主要是将相似的数据归为一个类。
5.(15分)如下表所示的数据集。请写出按属性A和B划分时的信息增益的计算表达式。不需要计算出最后结果。并回答计算信息增益在分类算法中的作用。
答:该题和书上的例题3-4一样。
6.需要通过一个例子,从数据的采集,构成,数据清理、数据挖掘,评估来说明一个聚类的挖掘任务。
7.答:
D(p,q)=1+1+(22-17)=7
D(p,C1)= (1-20/30)+(1-18/30)+(20-17)=3.73
D(p,C2) =(1-3/15)+(1-0/15)+(24-17)=8.8
D(q,C1) =(1-5/30)+(1-8/30)+(22-20)=3.57
D(q,C2) =(1-12/15)+(1-3/12)+(24-22)=2.95
D(C1,C2)= =1-(25*3+5*12)/(30*15)+1-(8*3)/(30*15)+(24-20)=5.65
8.答:首先要找到一项频繁集,按照顺序排:
序号
项集
支持度
1
KEY
6
2
BEER
5
3
WINE
4
4
BOX
4
5
EGG
3
6
DESK
2
7
DIAPER
2
8
TV
2
9
HAM
1
10
C
1
PF树如下:答案不唯一。
频繁2项集有:
(TV,BEER,KEY);
(DIAPPER,EGG,BOX,WINE,BEER,KEY)
(DESK,BEER,KEY)
(BOX,KEY)
(BOX,WINE,KEY)
以及他们的子集。
广东工业大学试卷用纸,共 2 页,第 3 页
文档评论(0)