- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
部分习题参考答案
第 1 章 认识数据挖掘
1.对于以下问题,考虑使用有指导的学习方法、无指导的聚类方法和数据查询方法中的哪一种
更为合适。若使用有指导的学习方法,请确定可能的输入属性和输出属性。
略。
2.定义“成功人士”的概念。确定概念中的属性特征,并分别从传统角度、概率角度和样本角
度描述这个概念。
略。
3.为表 1.1 感冒类型诊断数据集画一张前馈神经网络图。
说明:7 个输入属性——Increased –lym(淋巴细胞升高)、Leukocytosis(白细胞升高)、
Fever(发烧)、Acute-onset(起病急)、Sore-throat(咽痛)、Cooling-effect(退热效
果)、Group(群体发病),1 个输出属性——Cold-type(感冒类型)。网络结构包括 7 个
输入结点和 1 个输出结点,选择 9 个隐藏层结点。
4.假设有两个类,各有 100 个实例。第一个类中的实例是患有病毒性感冒(Cold-type = Viral)
的患者数据。第二个类中的实例是患有细菌性感冒(Cold-type = Bacterial)的患者数据。根据
以下规则回答下面的问题。
IF Increased –lym(淋巴细胞是否升高)= Yes Sore-throat(是否有咽痛症状)= No
THEN Cold-type = Viral
(rule accuracy = 80%,rule coverage = 60%)
(1) 患有病毒性感冒的患者中有多少人淋巴细胞升高且没有咽痛症状?
60
(2) 患有细菌性感冒的患者中有多少人淋巴细胞升高且没有咽痛症状?
60/0.8-60=15
5.在不使用 Sore-throat(咽痛)属性的情况下,使用 Weka 软件为表 1.1 建立一棵决策树,解
1
释和评估结果,并对表 1.2 中的实例进行分类。
决策树(C4.5)检验数据为训练集,分类正确率 80%,模型性能一般。
分类表 1.2 中的两个实例结果:第一个实例被分类为患有细菌性感冒(Cold-type =
Bacterial),第二个实例被分类为患有病毒性感冒(Cold-type = Viral)。
6.访问 UCI 网站,选择一个数据集,使用 Weka 软件进行有指导的学习、无指导的聚类和关
联分析,并解释和评估结果。
略。
第 2 章 基本数据挖掘技术
1. 关联规则和传统的用于分类的产生式规则有什么异同?
关联规则与传统的用于分类的产生式规则有两点不同。
(1) 在某条关联规则中以前提条件出现的属性可以出现在下一条关联规则的结果中。
(2) 传统的用于分类的产生式规则的结果中仅能有一个属性,而关联规则中则允许其结果
包含一个或多个属性。
2. 对于 K-means 算法,最优聚类的评判标准是什么?
K-means 算法的最优聚类通常为:簇中所有实例与簇中心的误差平方和最小。
3. 设计方案解决 K-means 算法缺乏对所发现内容进行解释的问题。提示:尝试使用决策树算
法对 K-means 算法形成的簇的定义进行解释。
略。
4. 画出使用 Partner 作为根节点的决策树,并写出决策时的产生式规则。
2
Partner
Yes No
Courses
1 Yes
3 No
=5 5
6 Yes
2 No 3 No
(1) IF Partner = Yes and Courses =5 THEN Play = Yes
正确率:6/8 = 75% 覆盖率:6/7 = 85.7%
(2) IF Partner = Yes and Courses 5 THEN Play = No
正确率:3/3 = 100% 覆盖率:3/8 = 37.5%
(3) IF Partner = No THEN Play = No
正确率:3/4 = 75% 覆盖率:3/8 = 37.5%
5. 计算使用 Partner 作为根节点的增益率值。
(1) Info(I)= -(7/15log2(7/15)+8/15log2(8/15))= 0.996792≈0.9968
(2) Info(I,Partner)= 11/15Info(Yes)+4/15Info(No)= 0.9453
其中:Info(Yes)= - (6/11log2(6/11) + 5/11log2(5/11)) = 0.9940
Info(No)=-(1/4log2(1/4) + 3/4log2(3/4)) = 0.8113
(3) SplitsInfo(Partner)= - (11/15log2(11/15) + 4/15log2(4/15)) = 0.8366
(4) Gain(Partner) = Info(I)- Info(I,Partner)≈
文档评论(0)