- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
统计与大数据分析基础知识单选题100道及答案解析
1.以下哪种数据类型不属于数值型数据?()
A.整数
B.浮点数
C.字符串
D.双精度数
答案:C
解析:字符串属于字符型数据,不是数值型数据。
2.数据的集中趋势测度中,不受极端值影响的是()
A.均值
B.中位数
C.众数
D.以上都不对
答案:C
解析:众数是出现频率最高的数据值,不受极端值影响。
3.一组数据的方差越大,说明()
A.数据的波动越大
B.数据的波动越小
C.数据的均值越大
D.数据的均值越小
答案:A
解析:方差越大,数据的离散程度越大,波动越大。
4.在抽样调查中,抽样误差()
A.不可避免但可控制
B.可以避免
C.不受样本量影响
D.与样本量无关
答案:A
解析:抽样误差是不可避免的,但可以通过合理的抽样设计和增大样本量来控制。
5.以下哪个指标用于衡量两个变量之间的线性关系强度?()
A.方差
B.协方差
C.相关系数
D.标准差
答案:C
解析:相关系数用于衡量两个变量之间的线性关系强度。
6.对于正态分布,均值和中位数的关系是()
A.均值大于中位数
B.均值小于中位数
C.均值等于中位数
D.不确定
答案:C
解析:正态分布是对称分布,均值等于中位数。
7.在假设检验中,如果p值小于显著性水平,则()
A.拒绝原假设
B.接受原假设
C.无法确定
D.以上都不对
答案:A
解析:p值小于显著性水平时,拒绝原假设。
8.大数据的特点不包括()
A.数据量大
B.数据类型多样
C.处理速度慢
D.价值密度低
答案:C
解析:大数据处理速度要求快,而不是慢。
9.以下哪种数据挖掘算法用于分类问题?()
A.聚类分析
B.决策树
C.关联规则挖掘
D.以上都不是
答案:B
解析:决策树常用于分类问题。
10.箱线图中,箱子的长度表示()
A.数据的四分位距
B.数据的极差
C.数据的标准差
D.数据的均值
答案:A
解析:箱线图中箱子的长度表示四分位距。
11.偏态系数大于0,说明数据分布是()
A.左偏
B.右偏
C.对称
D.无法确定
答案:B
解析:偏态系数大于0为右偏分布。
12.以下哪种抽样方法不是概率抽样?()
A.简单随机抽样
B.分层抽样
C.整群抽样
D.方便抽样
答案:D
解析:方便抽样是非概率抽样。
13.数据清洗的目的是()
A.提高数据质量
B.减少数据量
C.改变数据类型
D.以上都不是
答案:A
解析:数据清洗是为了提高数据质量,去除错误和重复等。
14.在回归分析中,自变量和因变量的关系是()
A.因果关系
B.相关关系
C.不确定
D.以上都不对
答案:C
解析:回归分析中自变量和因变量不一定是严格的因果关系,也可能只是相关关系。
15.以下哪种方法常用于处理缺失值?()
A.直接删除
B.用均值填充
C.用中位数填充
D.以上都是
答案:D
解析:处理缺失值的常见方法包括直接删除、用均值或中位数填充等。
16.主成分分析的目的是()
A.降维
B.分类
C.预测
D.以上都不是
答案:A
解析:主成分分析主要用于降维。
17.以下哪个不是描述数据离散程度的指标?()
A.方差
B.均值
C.标准差
D.极差
答案:B
解析:均值是描述数据集中趋势的指标。
18.聚类分析中,常用的距离度量方法不包括()
A.欧氏距离
B.曼哈顿距离
C.余弦距离
D.相关系数
答案:D
解析:相关系数不是聚类分析中常用的距离度量方法。
19.假设检验中,第一类错误是()
A.原假设为真时拒绝原假设
B.原假设为假时拒绝原假设
C.原假设为真时接受原假设
D.原假设为假时接受原假设
答案:A
解析:第一类错误是原假设为真时拒绝原假设。
20.以下哪种图表适合展示时间序列数据?()
A.柱状图
B.折线图
C.饼图
D.箱线图
答案:B
解析:折线图适合展示时间序列数据的趋势。
21.数据标准化的目的是()
A.使数据均值为0,方差为1
B.使数据在0到1之间
C.去除数据的异常值
D.以上都不是
答案:A
解析:数据标准化使数据均值为0,方差为1。
22.以下哪个不是大数据存储技术?()
A.Hadoop
B.MySQL
C.MongoDB
D.HBase
答案:B
解析:MySQL一般不用于大数据存储。
23.在数据挖掘中,过拟合是指()
A.模型对训练数据拟合不足
B.模型对训
文档评论(0)