- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据导论试卷(考试时长:100分钟)
A01、判断题(每小题2分,共20分)
1.
基于拉的方法是数据由源或第三方推向数据汇聚点。
2.
等频是将连续型变量的取值范围均匀划成n等份,每份的间距相等。
3.
如果在一个关系中存在唯一标识一个元组的属性集合(可以是单一属性构成的集合),则称该属性集合为这个关系的主键或主码。
4.
与均值相比,中位数有着更好的抗扰性。
5.
大数据具有“4V”特征,即规模庞大、种类繁多、变化频繁和价值巨大但价值密度低。
6.
1PB=1024GB。
7.
经过Z-score标准化处理后的数据符合标准正态分布。
8.
模型在验证集上的正确率或者其他参数定义的表现好坏,将决定模型的实际应用价值。
9.
神经网络架构搜索过程是一个优化问题,旨在寻找一个或多个神经架构来获得最佳性能。
10.
结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。
A02、单选题(每小题2分,共20分)
1.
关于词袋模型的描述错误的是(??????)。
最简单的词向量表示方法
使用一组无序的单词来表达一段文字或一个文档
忽略掉文本的语法和语序等要素
文档中每个单词的出现都是关联的
2.
独立级联模型和线性阈值模型的区别是(??????)。
最开始给定一个随机的阈值
停止条件为不再有新的结点被激活
模拟影响在社会网络中的传播过程
不再通过结点?v?的所有已激活邻居的权重和达到阈值来激活
3.
下述关于HDFS描述正确的是(??????)。
适合小文件存储和处理
集群规模无法动态扩展
用于数据的存储、管理和出错处理
跨平台移植性一般
4.
网络爬虫是网站应用主要的数据采集方式,下面哪一项不属于数据采集策略?
选择策略
重访策略
礼貌策略
串行策略
5.
模式匹配是(??????)的过程。
标识两个数据对象是语义相关
数据在两个不同的数据模型之间进行转换
发现隐藏的敏感数据
使用语义信息来帮助将一个数据模型中的数据转换为另一个表示或数据模型
6.
下述所表示的数据操作是(??????)。
学号
姓名
性别
年龄
图书证号
所在系
课程号
成绩
S3001
张明
男
22
外语
C1
90
S3001
张明
男
22
外语
C2
95
S3002
李静
女
21
外语
C1
84
S4001
赵丽
女
21
管理
C3
50
学号
姓名
所在系
课程号
成绩
S3001
张明
外语
C1
90
S3001
张明
外语
C2
95
S3002
李静
外语
C1
84
S4001
赵丽
管理
C3
50
投影
连接
选择
差
7.
关系数据模型中通过实体完整性、参照完整性和自定义完整性来确保数据的(??????)。
完整
完整一致
准确
一致
8.
数据库是按照(??????)来组织、存储和管理数据的,是建立在计算机存储设备上的仓库。
数据大小
数据名称
数据特点
数据结构
9.
智慧城市首次由IBM在(??????)年提出,其目的是为了解决城市扩张带来的诸多问题。
2005
2008
2010
2012
10.
(??????)用于进行身份鉴别,证明用户身份,即“你是谁”。
PMI
PKI
SOA
RM
A03、简答题(每小题10分,共60分)
查看上传图片
1.
a)请介绍四种常用的数据采集方法。
b)?请给出网络爬虫的流程示意图。
2.
请介绍一下协同过滤推荐算法的原理和分类。
3.
请给出k-均值算法的具体步骤,并对其进行性能分析。
4.
请利用平行坐标对A=(1,2,-2,1,-3),B=(2,3,-1,1,-2),C=(-4,-5,5,2,)进行可视化,并给出平行坐标的设计挑战。
5.
a)?希望同时提供消息的机密性以及鉴别性,如何实现,请给出模型示意图。
b)?举例说明智能手机可能出现的个人隐私泄漏。
6.
请描述一下DIKW金字塔,并给出数据集成的分类方式。
您可能关注的文档
最近下载
- 汉语口语速成入门篇上 第九课 你家有几口人?教案资料.ppt VIP
- DZ∕T 0291-2015 饰面石材矿产地质勘查规范.pdf
- 太阳能路灯工程施工组织方案的编制与应用指南.docx VIP
- 教育行业在线教学平台建设与运营管理方案.doc VIP
- 2025年国家开放大学电大《公共部门人力资源管理》机考3套真题题库及.docx VIP
- (2024版)小学一年级道德与法治下册第一课《有个新目标》教学设计部编版.pdf VIP
- 中华护理学会专科护士通科题库 .pdf VIP
- 2025天津市华淼给排水研究设计院有限公司对外招聘7人笔试历年参考题库附带答案详解.docx
- 老年社会工作服务项目策划书.docx VIP
- 圆钢方钢管受压承载力计算表.xls VIP
文档评论(0)