大数据分析实用教程——基于Python实现试卷15网工大数据A.docVIP

  • 7
  • 1
  • 约3.22千字
  • 约 6页
  • 2023-08-17 发布于湖北
  • 举报

大数据分析实用教程——基于Python实现试卷15网工大数据A.doc

PAGE 第 PAGE 4 页 共 NUMPAGES 6 页 衡阳师范学院 2017-2018学年 第一学期 计算机科学与技术学院 网络工程专业 2015级 《云计算与大数据处理原理》期末考试试题A卷 考试时间: 120 分钟 题 号 一 二 三 四 总分 合分人 复查人 分值 20 20 30 30 100 得分 学 院 专 业 年 级、班 级 学 号 姓 名 得 分 评卷人 一、单选题(每小题2分,共20分) 云计算的特点不包括下列哪项 ( ) A、虚拟化 ?????? B、动态可扩展??????? C、高安全性 ???? D、按需部署 按照虚拟化的层次,VMware虚拟机属于 ( ) A. 指令集架构虚拟化 B. 硬件抽象层虚拟化 C. 操作系统层虚拟化 D. 编程语言层虚拟化 以下哪项不是大数据的特点 ( ) A、数据量大 B、数据类型多样 C、价值密度高 D、数据真实性 基础设施即服务的英文缩写是 ( ) A. PaaS B.SaaS C. IaaS D. CaaS HDFS文件系统的前身是 ( ) A、HBase B、GFS C、Hive D、YARN 下列哪项是MapReduce编程模型不能解决的问题是 ( ) A.层次聚类法 B.K-means聚类 C.朴素贝叶斯分类 D.Top K问题 在HDFS文件系统中,若块的大小是128M,有三个文件的大小分别是150M、190M和80M,则共需要分几个块存储 ( ) A、4 B、5 C、6 D、 下列哪种数据库不是NoSQL数据库 ( ) A.Mongodb B.Redis C.Oracle D.HBase 下列哪项不是聚类算法。 ( ) A、KNN B、K-中心点 C、K-means D、DBScan 以下关于HDFS的叙述中,错误的是: ( ) A、 NameNode是管理节点,用来存放文件元数据 B、DataNode是存放数据块(Block)的节点 C、DataNode与Block之间是多对多的关系 D、文件与数据块的映射表存放在DataNode节点中 得 分 评卷人 二、填空题(每空 2 分,共 20 分) 1. 按技术路线来看,Hadoop属于 云计算(填资源整合型或资源切分型)。 2. 大数据的两大核心技术是 和分布式计算。 3. MapReduce负责任务分配和调度的节点称为 ,负责任务执行的节点称为 。 4.聚类算法可分为 、 、基于密度的方法和基于模型的方法等。 5.决策树是用样本的 作为结点,用 作为分支的树结构。 7、给定贝叶斯公式P(cj|x) =(P(x|cj)P(cj))/P(x),公式中P( cj|x)称为 (填先验概率、后验概率或全概率)。朴素贝叶斯分类分类的依据是要求上式中 的值最大。 得 分 评卷人 三、简答题(每小题5分,共30分) 1. 简述MapReduce四个阶段的任务。 2. 简述云计算与大数据的关系。 3. 什么是训练数据,聚类的训练数据和分类的训练数据有何区别? 4. 人工神经网络输入层的节点数目和输出层的节点数目如何确定? 5. 对于用户ABCD和物品abcd,设N(A)={a,b,d},N(B)={a,c},N(C)={b,e},N(D)={c,d,e},各用户对各物品的感兴趣程度均为1,推荐阈值为0.7。试用基于用户的协同过滤推荐算法给用户A推荐物品。 6. 解释如下关联规则表达式的含义: major(x, “CS”) ^ takes(x, “DB”) → grade(x, “A”) [1%, 75%]。 得 分 评卷人 四、应用题(每小题10分,共30分) 1.给定事务数据如下表。假定数据包含频繁项集L={A,B,D}。问可以由L产生哪些关联规则,并分别列出其可信度(Confidence)? 若最小可信度定义为80%,则产生的关联规则中哪些是强关关联规则。 ID 购买商品 1 {K,A,D,B} 2 {D,A,C,E,B} 3 {C,A,B,E} 4 {B,A,D} 2. 5个对象之间的距离如下表所

文档评论(0)

1亿VIP精品文档

相关文档