- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种数据类型属于定比数据?
A.性别(男/女)
B.教育程度(小学/初中/本科)
C.温度(摄氏度)
D.年龄(岁)
答案:D
解析:定比数据具有绝对零点和可比较的比例关系。年龄(岁)有绝对零点(0岁表示没有年龄),且20岁是10岁的2倍,符合定比数据定义。A是定类数据(无顺序),B是定序数据(有顺序无间隔),C是定距数据(有间隔无绝对零点,如0℃不表示无温度)。
在右偏分布中,均值、中位数、众数的大小关系通常为?
A.均值中位数众数
B.中位数均值众数
C.众数中位数均值
D.众数均值中位数
答案:A
解析:右偏分布(正偏态)的长尾在右侧,均值受极端大值影响被拉向右侧,因此均值中位数众数。例如收入分布,少数高收入者会拉高均值,但中位数和众数更集中在较低区间。
以下哪种方法最常用于解决机器学习中的过拟合问题?
A.增加训练数据量
B.减少特征数量
C.降低模型复杂度(如减少决策树深度)
D.以上都是
答案:D
解析:过拟合是模型对训练数据过度学习、泛化能力差的表现。增加数据量(提供更多样本多样性)、减少特征(降低维度复杂度)、降低模型复杂度(如限制树深度)均能缓解过拟合。三者均为有效方法。
数据清洗中,若某特征缺失值比例小于5%且无明显模式,最合理的处理方式是?
A.用均值填充
B.删除缺失值所在的行
C.用中位数填充
D.用众数填充
答案:B
解析:当缺失值比例较低(5%)且无系统性缺失(如随机缺失)时,直接删除缺失行对整体数据影响最小,避免引入填充误差。填充方法(均值/中位数/众数)适用于缺失比例较高或有特定模式的场景。
数据库设计中,第三范式(3NF)要求?
A.消除非主属性对候选键的部分依赖
B.消除非主属性对候选键的传递依赖
C.消除主属性之间的依赖
D.所有属性不可再分
答案:B
解析:第一范式(1NF)要求属性原子性(不可再分);第二范式(2NF)消除非主属性对候选键的部分依赖;第三范式(3NF)消除非主属性对候选键的传递依赖(如A→B→C,需分离为A→B和B→C)。
以下哪项是Seaborn相对于Matplotlib的主要优势?
A.更底层的绘图控制
B.内置统计可视化模板(如箱线图、热力图)
C.支持3D图形绘制
D.更高效的大数据量渲染
答案:B
解析:Seaborn是基于Matplotlib的高层库,专注于统计可视化,提供了更简洁的API和预定义的统计图表模板(如lmplot、pairplot)。Matplotlib更侧重底层控制,3D绘图和大数据渲染能力两者无显著差异。
检验两个独立样本的均值是否有显著差异,应选择?
A.卡方检验
B.t检验(独立样本)
C.方差分析(ANOVA)
D.皮尔逊相关系数
答案:B
解析:t检验用于比较两个独立/配对样本的均值差异;卡方检验用于分类变量的独立性检验;ANOVA用于三个及以上样本的均值比较;皮尔逊相关系数衡量线性相关性。
对类别特征“颜色(红/蓝/绿)”进行编码时,最合理的方法是?
A.标签编码(红=1,蓝=2,绿=3)
B.独热编码(生成3个二进制特征)
C.序数编码(按颜色波长排序)
D.直接保留原始字符串
答案:B
解析:类别特征无顺序关系时(如颜色),标签编码会错误引入数值顺序(如红蓝绿),而独热编码(One-HotEncoding)通过二进制向量避免此问题,是最合理选择。序数编码适用于有明确顺序的类别(如低/中/高)。
时间序列分析中,用于检验平稳性的常用方法是?
A.自相关函数(ACF)
B.偏自相关函数(PACF)
C.迪克-富勒检验(ADF检验)
D.贾奎-贝拉检验(JB检验)
答案:C
解析:ADF检验通过单位根检验判断时间序列是否平稳(原假设为存在单位根,即非平稳);ACF和PACF用于识别AR/MA模型阶数;JB检验用于正态性检验。
以下哪项不属于数据伦理的核心原则?
A.隐私保护
B.算法透明性
C.模型准确率最大化
D.结果公平性
答案:C
解析:数据伦理关注数据收集、处理、应用中的道德问题,核心原则包括隐私保护(如GDPR)、算法透明性(避免黑箱)、结果公平性(防止歧视)。模型准确率是技术目标,非伦理原则。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
数据清洗的主要内容包括?
A.处理缺失值
B.纠正异常值
C.转换数据格式(如日期字符串转datetime)
D.删除重复记录
答案:ABCD
解析:数据清洗是消除数据缺陷的过程,包括处理缺失值(填充/删除)、纠正异常值(修正/删除)、转换格
您可能关注的文档
- 2025年健康管理师考试题库(附答案和详细解析)(1122).docx
- 2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1120).docx
- 2025年安全开发生命周期专家考试题库(附答案和详细解析)(1117).docx
- 2025年期货从业资格考试考试题库(附答案和详细解析)(1118).docx
- 2025年注册土木工程师考试题库(附答案和详细解析)(1118).docx
- 2025年注册家族财富管理师(CFWM)考试题库(附答案和详细解析)(1121).docx
- 2025年注册环境影响评价工程师考试题库(附答案和详细解析)(1118).docx
- 2025年算法工程师职业认证考试题库(附答案和详细解析)(1119).docx
- 2025年虚拟现实开发工程师考试题库(附答案和详细解析)(1117).docx
- 2025年证券从业资格考试考试题库(附答案和详细解析)(1109).docx
- 2025年住院医师规培-北京-北京住院医师规培(急诊科)历年参考题典型考点含答案解析.docx
- 二年级安全班会课件.ppt
- 2025年事业单位工勤技能-福建-福建热力运行工二级(技师)历年参考题典型考点含答案解析.docx
- 2025年教师职称-青海-青海教师职称(基础知识、综合素质、初中信息技术)历年参考题典型考点含答案解.docx
- 2025年事业单位工勤技能-贵州-贵州水土保持工一级(高级技师)历年参考题典型考点含答案解析.docx
- 赛事管理软件定制开发合同.doc
- 2025年事业单位工勤技能-甘肃-甘肃保育员四级(中级工)历年参考题典型考点含答案解析.docx
- 2025年事业单位工勤技能-北京-北京经济岗位工五级(初级工)历年参考题典型考点含答案解析.docx
- 人力资源软件定制开发合同.doc
- 国家开放大学2020-2022年《2502学前儿童发展心理学》期末考试真题(6套).pdf
最近下载
- 门诊低血糖应急处理.pptx VIP
- 市政道路沥青混凝土路面施工组织设计.docx VIP
- 仓库出入库表格excel模板.xlsx VIP
- 师德师风网络研修工作坊总结范文(8篇).doc VIP
- 2025CSCO结直肠癌诊疗指南解读PPT课件.pptx VIP
- 榆林临时围挡施工方案.docx VIP
- 食品安全日管控、周排查及月调度记录表 .pdf VIP
- 2025CSCO结直肠癌诊疗指南解读PPT课件.pptx VIP
- RocscienceSlide岩土边坡稳定性分析操作教程(非.pdf VIP
- [中央]2025年教育部直属事业单位面向社会在职人员招聘17人笔试历年参考题库频考点试题附带答案详解.docx
原创力文档


文档评论(0)