- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大数据CDA考试(习题卷1)
第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在因子分析中,为了帮助解释因子,我们可以使用()
A)因子得分
B)因子负载
C)因子旋转
D)主成分分析
答案:C
解析:在进行因子分析时,我们可以通过因子旋转来使得最终得到的因子更具有解释性。
2.[单选题]关于Kafka磁盘容量不足的告警,对于可能的原因以下分析不正确的是?
A)业务规划不合理导致数据分配不均,使部分磁盘达到使用率上限
B)数据保存时间配置过长,数据累计达到磁盘使用率上限
C)Broker节点故障导致
D)用于存储Kafka数据的磁盘配置(如磁盘数目磁盘大小等),无法满足当前业务数据流量,导致磁盘使用率达到上限
答案:C
解析:
3.[单选题]基于规则的分类器有Aprior、随机森林,还有()。
A)C4.5
B)KNN
C)NaiveBayes
D)ANN
答案:A
解析:
4.[单选题]“将总体中的所有单位()按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事
先规定好的规则确定其它样本单位”,这种抽样方法称为()
A)多阶段抽样(systematic
B)分层随机抽样(stratified
C)集群抽样(cluster
D)系统抽样(systematic
答案:D
解析:根据定义。
5.[单选题]参照以下信息选择能够正确创建orderinfo表的语句
A)create
B)create
C)create
D)create
答案:A
解析:本题考查SQL语句中建表、字段约束条件以及字段数据类型相关知识。其中建表语句结构为createtable表名
(…),字段的约束条件为非空=notnull、唯一=unique、主键=primarykey。定长字符串类型为char,可变长字符串类
型为varchar,小数类型通常使用float,但“金额”这类对数据精度要求较高的情况,应考虑使用decimal,整数类型
为int。所以综合以上内容,本题的正确答案为A。
考试题卷11/1
6.[单选题]使用JAVAAPI进行HBase整表扫描操作,以下命令输写正确的是()。
A)table.getScanner(scan);
B)table.scan(table)
C)table.get(table).scan();
D)table.Scanner(get);
答案:A
解析:
7.[单选题]下列关于Java语言的特点,描述错误的是()
A)Java是跨平台的编程语言
B)Java支持分布式计算
C)Java是面向过程的编程语言
D)Java支持多线程
答案:C
解析:
8.[单选题]以下哪类数据不属于半结构化数据?
A)HTML
B)XML
C)二维表
D)JSON
答案:C
解析:
9.[单选题]设计分布式数仓库hive的数据表时,为取样更高效,一般可以对表中的连续字段进行什么操作。
A)分桶
B)分区
C)索引
D)分表
答案:A
解析:
考试题卷12/1
10.[单选题]使用“select*from表1innerjoin表2on表1.员工id=表2.员工id”语句对下边两个表进行查询
,查询结果中应有几行数据
表1
A)2
B)3
C)4
D)5
答案:C
解析:本题考查对连接逻辑的正确理解能力。在连接两表的字段中有重复值且两个字段的值不是一对一匹配关系时,内
连接的结果是把两表中都有的值列出来,并且有重复值的地方进行多对多匹配。所以正确答案是四个a001,选答案C。
11.[单选题]下列关于逻辑回归模型中计算得到的发生概率p,阐述错误的是()
A)任何情况下,临界值都是0.5。当p≥0.5,其分类取1;p0.5,其分类取0
B)p是相对概率
C)p的取值在0至1之间
D)被称为odds
答案:A
考试题卷13/1
文档评论(0)