网站大量收购闲置独家精品文档,联系QQ:2885784924

南开大学24秋学期数据科学导论在线作业.docx

南开大学24秋学期数据科学导论在线作业.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

南开大学24秋学期数据科学导论在线作业

试卷总分:100?得分:100

一、单选题(共20道试题,共40分)

1.实体识别的常见形式()

A.同名异义

B.异名同义

C.单位不统一

D.属性不同

?

2.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。

A.产量每增加一台,单位成本增加100元

B.产量每增加一台,单位成本减少1.2元

C.产量每增加一台,单位成本平均减少1.2元

D.产量每增加一台,单位平均增加100元

?

3.实体识别属于以下哪个过程()

A.数据清洗

B.数据集成

C.数据规约

D.数据变换

?

4.单层感知机是由()层神经元组成。

A.一

B.二

C.三

D.四

?

5.以下哪个不是处理缺失值的方法()

A.删除记录

B.按照一定原则补充

C.不处理

D.随意填写

?

6.多层感知机是由()层神经元组成。

A.二

B.三

C.大于等于二层

D.大于等于三层

?

7.以下哪一项不是特征工程的子问题()

A.特征创建

B.特征提取

C.特征选择

D.特征识别

?

8.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。

A.减小,减小

B.减小,增大

C.增大,减小

D.增大,增大

?

9.以下属于关联分析的是()

A.CPU性能预测

B.购物篮分析

C.自动判断鸢尾花类别

D.股票趋势建模

?

10.根据映射关系的不同可以分为线性回归和()。

A.对数回归

B.非线性回归

C.逻辑回归

D.多元回归

?

11.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

?

12.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()

A.异常值

B.缺失值

C.不一致的值

D.重复值

?

13.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。

A.最优回归线

B.最优分布线

C.最优预测线

D.最佳分布线

?

14.以下哪一项不属于数据变换()

A.简单函数变换

B.规范化

C.属性合并

D.连续属性离散化

?

15.Apriori算法的加速过程依赖于以下哪个策略()

A.抽样

B.剪枝

C.缓冲

D.并行

?

16.哪一项不属于规范化的方法()

A.最小-最大规范化

B.零-均值规范化

C.小数定标规范化

D.中位数规范化

?

17.以下哪一项不是特征选择常见的方法()

A.过滤式

B.封装式

C.嵌入式

D.开放式

?

18.以下哪些不是缺失值的影响()

A.数据建模将丢失大量有用信息

B.数据建模的不确定性更加显著

C.对整体总是不产生什么作用

D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出

?

19.单层感知机拥有()层功能神经元。

A.一

B.二

C.三

D.四

?

20.聚类是一种()。

A.有监督学习

B.无监督学习

C.强化学习

D.半监督学习

?

二、多选题(共10道试题,共20分)

21.距离度量中的距离可以是()

A.欧式距离

B.曼哈顿距离

C.Lp距离

D.Minkowski距离

?

22.系统日志收集的基本特征有()

A.高可用性

B.高可靠性

C.可扩展性

D.高效率

?

23.下面例子属于分类的是()

A.检测图像中是否有人脸出现

B.对客户按照贷款风险大小进行分类

C.识别手写的数字

D.估计商场客流量

?

24.Apriori算法的计算复杂度受()影响。

A.支持度阈值

B.项数

C.事务数

D.事务平均宽度

?

25.K-means聚类中K值选取的方法是()。

A.密度分类法

B.手肘法

C.大腿法

D.随机选取

?

26.k近邻法的基本要素包括()。

A.距离度量

B.k值的选择

C.样本大小

D.分类决策规则

?

27.数据科学具有哪些性质()

A.有效性

B.可用性

C.未预料

D.可理解

?

28.下列选项是BFR的对象是()

A.废弃集

B.临时集

C.压缩集

D.留存集

?

29.层次聚类的方法是()

A.聚合方法

B.分拆方法

C.组合方法

D.比较方法

?

30.对于多层感知机,()层拥有激活函数的功能神经元。

A.输入层

B.隐含层

C.输出层

?

三、判断题(共20道试题,共40分)

31.为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。

?

32.

文档评论(0)

wenwen52000 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档