广西中医药大学赛恩斯新医药学院《数据清洗》2023-2024学年第二学期期末试卷.docVIP

广西中医药大学赛恩斯新医药学院《数据清洗》2023-2024学年第二学期期末试卷.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

站名:

站名:年级专业:姓名:学号:

凡年级专业、姓名、学号错写、漏写或字迹不清者,成绩按零分记。

…………密………………封………………线…………

第PAGE1页,共NUMPAGES1页

广西中医药大学赛恩斯新医药学院《数据清洗》

2023-2024学年第二学期期末试卷

题号

总分

得分

一、单选题(本大题共30个小题,每小题1分,共30分.在每小题给出的四个选项中,只有一项是符合题目要求的.)

1、在进行数据分析时,如果数据不符合正态分布,以下哪种统计方法可能不再适用?()

A.t检验

B.方差分析

C.线性回归

D.以上都是

2、在对一个社交媒体平台的用户兴趣数据进行分析,例如关注的话题、参与的讨论组等,以进行精准的广告投放。以下哪种数据挖掘技术可能在用户画像和广告定向中发挥重要作用?()

A.分类算法B.聚类算法C.关联规则挖掘D.以上都是

3、某电商平台想要了解商品销量与广告投入之间的关系,收集了大量数据。以下关于数据预处理的步骤,不正确的是?()

A.检查数据的完整性

B.直接删除所有缺失值

C.处理异常值

D.对数据进行标准化

4、在进行数据分析时,数据的可视化呈现方式会影响对数据的理解和解读。假设我们要展示不同年龄段人群的收入分布情况。以下关于数据可视化呈现的描述,哪一项是不准确的?()

A.可以使用小提琴图同时展示数据的分布和密度

B.雷达图适合比较多个变量在不同类别上的表现

C.3D图表能够更生动地展示数据,应尽量使用3D图表

D.选择合适的数据可视化呈现方式要考虑数据的特点和分析目的

5、在数据分析中,数据分析的流程包括多个步骤,其中问题定义是第一个步骤。以下关于问题定义的描述中,错误的是?()

A.问题定义应该明确数据分析的目的和需求

B.问题定义应该考虑数据的可用性和可获取性

C.问题定义应该确定数据分析的方法和工具

D.问题定义可以根据需要进行调整和修改,以适应不同的情况

6、假设要分析社交媒体上的舆论趋势,以下关于舆论分析方法的描述,正确的是:()

A.只统计帖子的数量就能了解舆论的走向

B.对帖子的内容进行情感分析和主题提取,综合判断舆论趋势

C.忽略社交媒体平台的特点和用户行为,直接进行分析

D.舆论分析不需要考虑时间因素,只关注当前的热门话题

7、在处理时间序列数据时,如果需要预测未来多个时间点的值,以下哪种模型较为适用?()

A.AR模型

B.MA模型

C.ARMA模型

D.ARIMA模型

8、在数据分析中,数据仓库是一种重要的存储和管理数据的方式。以下关于数据仓库的描述中,错误的是?()

A.数据仓库可以将来自不同数据源的数据整合在一起

B.数据仓库可以提供高效的数据查询和分析功能

C.数据仓库中的数据是实时更新的,反映了最新的业务状态

D.数据仓库的建设需要投入大量的时间和资源

9、在数据分析中,描述性统计是常用的方法之一。以下关于描述性统计指标的说法中,错误的是?()

A.均值是一组数据的平均值,能反映数据的集中趋势

B.中位数是将数据从小到大排序后位于中间位置的数值,不受极端值影响

C.标准差反映了数据的离散程度,标准差越大,数据的波动越小

D.描述性统计指标可以帮助我们快速了解数据的基本特征和分布情况

10、在数据分析的方差分析(ANOVA)中,以下关于组间方差和组内方差的描述,错误的是()

A.组间方差反映了不同组之间的差异

B.组内方差反映了组内个体之间的差异

C.如果组间方差显著大于组内方差,说明不同组之间存在显著差异

D.组间方差和组内方差的比值越大,越说明组间差异不显著

11、数据分析中,数据安全策略的制定应考虑多方面因素。以下关于数据安全策略制定的说法中,错误的是?()

A.数据安全策略的制定应包括数据的加密、备份、访问控制和审计等方面

B.数据安全策略的制定应根据数据的重要性和敏感性来确定不同的安全级别

C.数据安全策略的制定应定期进行评估和调整,以适应不断变化的安全环境

D.数据安全策略的制定只需要考虑企业内部的安全需求,不需要考虑外部的安全威胁

12、数据分析中的特征工程旨在从原始数据中提取有意义的特征。假设要分析股票市场数据,需要从历史价格、成交量等原始数据中构建有效的特征。以下哪种特征构建方法在股票数据分析中可能最为有效?()

A.基于时间序列的特征提取

B.基于统计的特征构建

文档评论(0)

135****9946 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档