数据挖掘题培训讲学.docVIP

下载本文档

3
0
约4.16千字
约 22页
2019-09-11 发布于天津
举报
版权申诉

数据挖掘题培训讲学.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1 贵州大学2013-2014学年第一学期《数据挖掘》期末考试题姓名_ __ 专业__应用数学___ 学号_1107010186_ 问题：一、要求应用SPSS软件对实验数据（六个变量，500个数据）进行如下统计分析： 1、对每一变量数据作直方图与QQ图，选出直方图近似正态分布且QQ图近似直线的变量，视这些变量是随机变量（至少两个），其近似服从正态分布；以上是对每一变量数据作直方图与QQ图，选出直方图近似正态分布且QQ图近似直线的变量为y2,y3，视这些变量是随机变量,其近似服从正态分布. 对近似服从正态分布的随机变量的分布函数进行假设检验（Kolmogorov–Smirnov方法）；对于变量y2，P值〉0.05，因此接受原假设，认为符合正态分布，相同的，对于y3，P值〉0.05，因此接受原假设，认为符合正态分布。 3.双尾P值为0.046，在显著性水平0.05下，可以拒绝原假设，即可以认为，x1与y1不独立。对x1与y1 的独立性进行假设检验；对x1（自变量）与y1（因变量）进行一元线性回归分析，建立回归方程，并进行线性性检验；由上图可知：相关系数R=0.89 拟合优度调整后的拟合优度=0.006 标准误差估计为：5764.573；所用回归模型F统计量值=3.987 显著性系数=0.46，因此认为这个统计模型有统计意义；建立回归方程为：y1=3.477x1+0.089 对x1（自变量）、x2（自变量）、x3（自变量）与y1（因变量）进行多元线性回归分析，建立回归方程，并进行线性性检验； 2：从“Anova表中，可以看出“模型2”中的“回归平方和”为2.287E8，“残差平方和”为1.645E10，总平方和=回归平方和+残差平方和。 3：根据后面的“F统计量”的概率值为3.454，由于3.454〉0.01，随着“自变量”的引入，其显著性概率值均远大于0.01，所以可以不能拒绝总体回归系数为0的原假设，通过ANOVA方差分析表可以看出“y1”与“x1”和“x3”之间不存在着线性关系。从“系数a” 表中可以看出： 1：多元线性回归方程应该为：y1=-5229.008+0.17*x1+35.329*x3但是，由于常数项的sig为（0.3150.1) 所以常数项不具备显著性，所以，我们再看后面的“标准系数”，在标准系数一列中，可以看到“常数项”没有数值，已经被剔除所以：标准化的回归方程为：销售量=-2.672*x1+20.727*x3 分别对来自三个总体（水平）x1、x2、x3的试验数据关于均值相等的假设进行方差分析，同理对来自三个总体（水平）y1、y2、y3的试验数据进行方差分析; 按六个变量进行变量聚类，以变量的相关系数作为距离度量，分析聚类结果。近似矩阵表使用平方Euclidean距离计算的，其实质是一个不相似矩阵，其中的数值表示各个样本之间的相似系数，数值越大，表示样本距离越大。聚类表反映的是每一阶段的聚类结果，系数表示的是聚合系数，冰柱图是反映样本聚类情况的图，如果按照设定的类数，在那类的行上从左到右就可以找到各类所包含的样本。 8.7下表由雇员的数据库的训练数据组成。数据已泛化。例如，age“31^35”之间。对于给定的行，count表示department、status、age和salary在该行上具有给定值的元组数。 department Status age salary count sales senior 31……35 46K……50K 30 sales junior 26……30 26K……30K 40 sales junior 31……35 31K……35K 40 systems junior 21……25 46K……50K 20 systems senior 31……35 66K……70K 5 systems senior 26……30 46K……50K 3 systems junior 41……45 66K……70K 3 marketing senior 36……40 46K……50K 10 marketing junior 31……35 41K……45K 4 secretary senior 46……50 36K……40K 4 secretary junior 26……30 26K……30K 6 设status是类标号属性。、如何修改基本决策树算法，以便考虑每个广义数据元组（即每个行）的count？使用修改过的算法，构造给定数据的决策树。给定一个数据元组，它的属性department、age和salary的值分别为“systems”、“26……30”和“46……50K”。该元组ststus的朴素贝叶斯分类是什么？解：本题的类标号属性为：status,它有sen