- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据开发基础(试卷编号1121)
1.[单选题]训练样本集S含有天气、气温、人体感受、风力4个指标,已知天气的熵为0.694,温度的熵
为0.859,人体感受的熵为0.952,风力的熵为0.971,如使用ID3算法,选择()为树模型的分界点。
A)天气
B)气温
C)人体感受
D)风力
答案:A
解析:信息熵(informationentropy)是度量样本集合纯度最常用的一种指标,信息熵越大,变量的不
确定性越大,反之越小。树模型的分界点应选择信息熵最小的元素,本体选天气。
2.[单选题]在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个()
A)偏置项b
B)系教
C)松弛变量
D)两种情况的目标函数相同
答案:C
解析:
3.[单选题]在Hive中,如果只需要结构集的部分数据,可以通过()子句来限定返回的行数
A)limit
B)sort
C)from
D)order
答案:A
解析:
4.[单选题]根据变量取名的规则,以下变量的命名,合乎规则的是()
A)6S
B)S6
C)while
D)123name
答案:B
解析:
5.[单选题]为了保障流应用的快照存储的可靠性,快照主要存储在哪里?
A)jobManager的内存中
B)可靠性高的单机数据库中
C)本地文件系统中
D)hdfs中
答案:D
解析:
6.[单选题]创建DRDS库的时候,每个挂载的RDS实例默认创建的库的个数为:()。
A)16
B)8
C)4
D)2
答案:B
解析:
7.[单选题]下面有关分类算法的准确率、召回率、F1值的描述,错误的是()。
A)准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
B)召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率
C)正确率、召回率和F值取值都在0和1之间,数值越接近0,查准率或查全率
就越高
D)为了解决准确率和召回率冲突问题,引入了F1分数
答案:C
解析:正确率、召回率取值都在0和1之间,数值越接近1,查准率或查全率就越高。
8.[单选题]国网数据中台,是在下面()数据中心阶段的基础上发展过来的。
A)营销服务中心
B)全业务统一数据中心
C)海量历史/实时数据中心
D)电网GIS数据中心
答案:B
解析:
9.[单选题]下面哪一项不属于计算机集群中的节点?
A)主节点(MasterNode)
B)源节点(SourceNode)
C)名称结点(NameNode)
D)从节点(SlaveNode)
答案:B
解析:
10.[单选题]Task运在下来哪个选项中Executor上的作单元()
A)Driverprogram
B)sparkmaster
C)workernode
D)Clustermanager
答案:C
解析:
11.[单选题]聚类分析的常见应用场景不包括:()
A)发现关联购买行为
B)目标用户的群体分类
C)不同产品的价值组合
D)探测发现离群点和异常值
答案:A
解析:
12.[单选题]机器学习研究的主要内容是在计算机上从数据中产生()的算法,即学习算法。
A)模型
B)样本
C)规律
D)示例
答案:A
解析:
13.[单选题]通过(),持续降低自动采集成本和操作难度,不断提高公司数据的自动采集水平。
A)组织开展数据转换技术及应用研究
B)组织开展数据分类技术及应用研究
C)组织开展数据录入技术及应用研究
D)组织开展数据自动采集技术及应用研究
答案:D
解析:
14.[单选题]给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异
类样例的投影点尽可能远离,这说的是()算法。
A)PCA
B)SVM
C)K-means
D)LDA
答案:D
解析:
15.[单选题]存储过程的调用有几种方式(
A)3
B)1
C)4
D)2
答案:B
解析:
16.[单选题]下面不属于跨平台性基础设施和跨平台分析工具的有(__)。
A)IBM
B)Microsoft
C)Amazon
D)redeo
答案:D
解析:
17.[单选题]下面关于“LIMIT4”的描述正确的是()。--
A)4表示可获取的最大记录数量
B)4表示从5条记录开始获取
C)查询的实际记录数不能小于4
D)以上说法都不正确
答案:A
文档评论(0)