Python经济大数据分析模拟试卷试卷二答案 .pdfVIP

Python经济大数据分析模拟试卷试卷二答案 .pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

试卷二答案

单选

1-5:CBDBA

6-10:CADBB

11-15:CACDD

填空

1.相关性

2.列表list、集合set

3.3σ原则

4.矛盾性、不相容性

5.数据插补、不处理。

6.决策树、贝叶斯网络

名词解释题

1.分类是构建一个分类模型,输入样本的属性值,输出对应的类别,将每个样

本映射到预先定义好的类别。

2.决策树(DecisionTree)通过对训练样本的学习,并建立分类规则,然后依据

分类规则,对新样本数据进行分类预测,属于有监督学习。

3.预测是建立两种或两种以上变量间相互以来的函数模型,然后进行预测和控

制。

4.纯随机序列又称白噪声序列,序列的各项之间没有任何相关性,序列在进行

完全无序的随机波动。

问答题

1.异常值分析是检验数据是否有录入错误,是否含有不合常理的数据。

常用的方法有简单统计量分析、3σ原则和箱型图。

2.在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,

将严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以需

要进行数据的预处理。

3.答:SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯

4.分类是构建一个分类模型,输入样本的属性值,输出对应的类别,将每个样本

映射到预先定义好的类别。

分类算法的过程有两步:第一步是学习步,通过归纳分析训练样本集来建立分类

模型,得到分类规则;第二步是分类步,先用已知的测试样本集评估分类规则的

准确率,如果准确率是可以接受的,则使用模型对未知类标号的待测样本集进行

预测。

5.联系:

(1)LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进

的情况下可以处理多分类问题)

(2)两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,

两种算法的结果是很接近的。

区别:

(1)LR是参数模型,SVM是非参数模型。

(2)从目标函数来看,区别在于逻辑回归采用的是LogisticalLoss,SVM采用

的是hingeloss.这两个损失函数的目的都是增加对分类影响较大的数据点

的权重,减少与分类关系较小的数据点的权重。

(3)SVM的处理方法是只考虑SupportVectors,也就是和分类最相关的少数点,

去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的

点的权重,相对提升了与分类最相关的数据点的权重。

(4)逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。

而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要

计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,

能够大大简化模型和计算。

(5)Logic能做的SVM能做,但可能在准确率上有问题,SVM能做的Logic有的

做不了。

文档评论(0)

132****1109 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档