- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CDA_LEVEL_2试题及答案
CDA LEVELⅡ建模分析师_模拟题:
一、单项选择题(每小题0.5分,共30分
1、答案(D
在使用历史数据构造训练集(Train 集、验证(Validation 集和检验(Test
时,以下哪个样本量分配方案比较适合?
A.训练50%,验证0% ,检验50%
B.训练100%,验证0% ,检验0%
C.训练0% ,验证100%,检验0%
D.训练60% ,验证30%,检验10%
2、答案(A)
一个累积提升度曲线 ,当深度(Depth 等于0.1时 ,提升度为(Lift)为3.14,
以下哪个解释正确?
A.根据模型预测,从最高概率到最低概率排序后,最高的前10%中发生事
件的数量比随机抽样的响应率高3.14
B.选预测响应概率大于10%的样本,其发生事件的数量比随机抽样的响应
率高3.14
C.根据模型预测,从最高概率到最低概率排序后,最高的前10%中预测的
精确度比随机抽样高3.14
D.选预测响应概率大于10%的样本,其预测的精确度比随机抽样高3.14
3、答案(C
在使用历史数据构造训练(Train 集、验证(Validation 集和检验(Test
集时,训练数据集的作用在于
A.用于对模型的效果进行无偏的评估
B.用于比较不同模型的预测准确度
C.用于构造预测模型
D.用于选择模型
4、答案(D
在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什
么?
A.增加了填补缺失值的时间
B.加大了处理的难度
C.无法针对分区后各个数据集的特征分别做数据清洗
D.无法对不同数据清理的方法进行比较,以选择最优方法
5、答案(C
关于数据清洗(缺失值、异常值),以下哪个叙述是正确的?
A.运用验证数据集中变量的统计量对训练集中的变量进行数据清洗
B.运用验证数据集中变量的统计量对验证集中的变量进行数据清洗
C.运用训练数据集中变量的统计量对验证集中的变量进行数据清洗
D.以上均不对
6、答案(B
当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理
A.直接使用该变量,不填补缺失值
B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量
C.使用多重查补的方法进行缺失值填补
D.使用中位数进行缺失值填补
7、答案(B
构造二分类模型时 ,在变量粗筛阶段 ,以下哪个方法最适合对分类变量进行
粗筛
A.相关系数
B.卡方检验
C.方差分析
D.T检验
8、答案(A
以下哪个方法可以剔除多变量情况下的离群观测
A.变量中心标准化后的快速聚类法
B.变量取百分位秩之后的快速聚类法
C.变量取最大最小秩化后的快速聚类法
D.变量取Turkey转换后的快速聚类法
9、答案(C
以下哪种变量筛选方法需要同时设置进出模型的变量显著度阀值
A .向前逐步法
B.向后逐步法
C.逐步法
D.全子集法
10、答案(A
以下哪个指标不能用于线性回归中的模型比较:
A.R方
B.调整R方
C.AIC
D.BIC
11、[答案 B.]
将复杂的地址简化成北、中、南、东四区,是在进行?
A.数据正规化(Normalization) B.数据一般化(Generalization) C.数据
离散化(Discretization) D.数据整合(Integration)
12、【答案(A)】
当类神经网络无隐藏层 ,输出层个数只有一个的时候 ,倒传递神经网络会变
形成为?
A.罗吉斯回归 B.线性回归 C.贝氏网络 D.时间序列
13、[答案 B.]
请问Apriori算法是用何者做项目集(Itemset)的筛选?
A.最小信赖度(MinimumConfidence)
B.最小支持度(MinimumSupport)
C.交易编号(TransactionID)
D
文档评论(0)