- 1、本文档共22页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据预处理复习题
(一)单选题
下列关于缺失值的形式的说法中,正确的是( )o
Python中默认的缺失值形式为NA
Pandas中默认的缺失值形式为NaN
Python中默认的缺失值形式为Null
Pandas中默认的缺失值形式为空字符串(〃)
下列表述中,正确的是( )。
对字符串型变量的缺失值,需要使用众数进行填补。
对于缺失值,最简单的处理方法是使用均值进行填补。
完全变最指的包含缺失值的变量。
在调查过程中,因被调查者拒绝回答敏感问题而造成的数据缺失,属于人 为原因。
关于日期时间型数据,下列说法正确的是( )。
在计算机系统中,日期时间型数据是以文本形式存储的。
在计算机系统屮,日期时间型数据是以数值形式存储的。
在计算机系统中,日期时间型数据是以因子形式存储的。
在计算机系统中,日期时间型数据是以缺失值形式存储的.
下图是某分类变量各类别计数分布的箱线图,从图中可知( )。
saoo
saoo
少部分分类计数很低。
该变量类别很少,可以清晰的用箱线图展示各类别的频数。
这个变量存在大量低频分类。
绝大多数分类计数很高。
下列关于数据预处理的表述中,不正确的是( )o
具备专业经验的数据科学家可以在数据分析前忽略数据预处理。
数据预处理是在数据采集后,分析前这段时间里对数据进行的处理操作。
数据预处理的效果与数据分析顺利与否直接相关。
数据预处理往往占据数据分析项目总工作量的60%以上。
6.下列数据特征缩放的公式中,正确的是()oA.B.数据中心化公式为:Xscaled=M° 数据标准化公式为:Xscaled =X-XOC.D.
6.
下列数据特征缩放的公式中,正确的是(
)o
A.
B.
数据中心化公式为:Xscaled=M° 数据标准化公式为:Xscaled =X-XO
C.
D.
Max-ABS缩放公式为:Xscaled =芫一。
I 入 \rnax
Robust缩放公式为:Xscaled = 汽四
7.
下列关于相关系数的表述中,正确的是(
)o
A.B.C.D.
A.
B.
C.
D.
Pearson相关系数的值在[0, 1]之间分布。
Spearman相关系数的值在[-1, 1]之间分布。
变量X和丫的Spearman相关系数的定义为:r = 忒:我(爲2 相关系数越大,则说明两个变量的相关性越强。
下列关于异常值的表述中,不正确的是()o
异常值也可以称为离群值。
异常值的数值可能是真实可靠的。
异常值在数据中占得比例很小。
异常值完全是由于错误形成的数据。
下列关于哑变量的名称中,不正确的是( )。
二分类变量
虚拟变量
0-1型变量
数值型变量
下列关于异常值识别方法的表述中,不正确的是( )。
异常值的识别方式是考察变量中每一个样本值与其他样本值的相对距离。
通过箱线图可以识别异常值。
可以利用变量的样本均值和样本标准差来识别异常值。
异常值识别标准中使用了标准差的倍数作为距离大小的度量标准。
下列表述中,正确的是( )。
含有缺失值的变量必须被剔除。
数据缺失的原因是该数据不存在。
数据缺失对于数据建模分析不存在影响。
随机缺失类型是指数据的缺失仅仅依赖于其它变量。
下列关于数据错误的表述中,不正确的是( )o
数据集中所有错误的数据都可以被发现并予以纠正。
数据自身的逻辑规律可以帮助我们发现一些数据错误。
类别名称不统一会造成数据错误。
文字表述不规范会造成数据错误。
在大多数箱线图绘图工具中,定义上限值位置和下限值位置分别为
A.Q1 + 1.5X/QR ,Q3 - 1.5 x IQRB.Q1 一
A.
Q1 + 1.5X/QR ,
Q3 - 1.5 x IQR
B.
Q1 一 1.5 X IQR ,
Q3 + 1.5 X IQR
C.
Q3 - 1.5 x IQR ,
Q1 + 1.5 x IQR
D.
Q3 + 1.5 x 1QR ,
Q1 - 1.5 x IQR
下列关于数据缺失的表述中,正确的是( )。
缺失值处理的主要手段就是使用最接近的值进行填补。
只要数据录入人员避免漏录,数据就不会缺失。
在预处理阶段,遇到数据缺失情况可以忽略,不做处理。
某个变量的值为0,说明产生了数据缺失。
下列关于数据预处理环节简化数据的表述中,不正确的是( )。
过多的数据会导致模型训练效率低下。
初学者进行数据分析时需要简化数据,专业数据分析师不需要简化数据。
简化数据时,需要保证数据集的信息不过多损失。
在样本量增加到一定程度后,信息含量趋近于不变。
下列关于数据中心化的表述中,不正确的是( )。
中心化后,平均值变为0。
中心化后,标准差发生改变。
中心化后,极差没有发生改变。
中心化后,分布形状没有发生改变。
下列关于数据归约的意义中,不正确的是( )。
可以降低无效、错误数据对数
您可能关注的文档
- 国家开放大学Python程序设计期末考试复习资料汇编.docx
- 国家开放大学管理案例分析期末考试复习资料(部分).docx
- 国家开放大学Web开发基础期末考试复习资料汇编.docx
- 国家开放大学个人与团队管理期末考试复习资料(部分).docx
- 国家开放大学Dreamweaver网页设计期末考试复习资料汇编.docx
- 一建法规知识点整理(超完整版).docx
- 中学教育知识与能力考点整理(完整版).docx
- 小升初《西游记》必考知识点整理.docx
- 大学语文重点整理(详细完整版).docx
- 社会学概论重点知识.docx
- 2025年专题党课讲稿:统筹推进深层次改革和高水平开放与2025年党风廉政建设专题党课讲稿:统一思想、提高认识,推动党风廉政建设工作不断向纵深发展(2篇文).docx
- 2025年纪检机关纪委监委专题党课讲稿:继承光荣传统,做自我革命的表率、遵规守纪的标杆,打造忠诚干净担当、敢于善于斗争的纪检监察铁军与2025年学校教师专题学习党课讲稿:牢记嘱托以新气象新作为推进学校思政课建设【2篇文】.docx
- 2025年【3篇】高等学校教师专题党课学习讲稿例文.docx
- 2025年党风廉政建设专题学习辅导党课讲稿:加强党风廉政建设,勇于担当敢于作为与2024年铸牢中华民族共同体意识党课讲稿:铸牢中华民族共同体意识,书写同心共筑中国梦的崭新篇章2篇文.docx
- 2025年学校教师专题学习党课讲稿3篇范文.docx
- 2025年民政局民政系统专题党课学习讲稿【3篇】供参考.docx
- 2025年铸牢中华民族共同体意识党课讲稿:铸牢中华民族共同体意识,书写同心共筑中国梦的崭新篇章与2025年纪检监察机关专题党课讲稿:做好“四为”,做一名合格纪检监察干部(2篇文).docx
- 三篇文2025年学校教师专题学习党课讲稿.docx
- 2025年纪检监察机关专题党课讲稿:用好纪律这把管党治党“戒尺”与2025年民政局民政系统专题学习党课讲稿:强化党建引领,奋力推进民政事业高质量发展2篇文.docx
- 2025年党风廉政建设专题学习辅导党课讲稿:坚守底线,廉洁从政,以忠诚担当的干劲加强队伍党风廉政建设与2025年专题党课讲稿:坚守底线,廉洁从政,以忠诚担当的干劲加强队伍党风廉政建设【2篇文】.docx
文档评论(0)