Python数据分析与可视化习题答案.pdf

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第一章

1、阐述统计分析与数据挖掘的特点。

传统的统计分析是在已定假设、先验约束的内情况下,对数据进行整理筛选

和加工,由此得到一些信息。

数据挖掘是将信息需要进一步处理以获得认知,继而转为有效的预测和决策。

统计分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具。

2、数据分析的基本步骤包括哪些?

(1)数据收集;

(2)数据预处理;

(3)数据分析与知识发现;

(4)数据后处理。

3、相比R语言、MATLAB、SAS、SPSS等语言或工具,Python有哪些

优点?

(1)Python是面向生产的;

(2)强大的第三方库的支持;

(3)Python的胶水语言特性。

第二章

选择题

1、python之父是下列哪位?(A)

A、吉多范罗苏姆

B、丹尼斯里奇

C、詹姆斯高林思

D、克里夫默勒

2、python的缩进功能有什么作用?(C)

A、增加代码可读性

B、方便放置各类符号

C、决定程序的结构

D、方便修改程序

3、python的单行注释通过什么符号完成?(B)

A、双斜杠(//)

B、井号(#)

C、三引号(‘’’)

D、双分号(;;)

4、以下选项中,Python数据分析方向的库是?(C)

A、PIL

B、Django

C、pandas

D、flask

5、以下选项中,Python网络爬虫方向的库是?(D)

A、numpy

B、openpyxl

C、PyQt5

D、scrapy

对错题

1、winpython会写入windows注册表(F)

2、python与大多数程序设计语言的语法非常相近(T)

3、Python的缩进是一种增加代码可读性的措施(F)

4、PANDAS是一个构建在Numpy之上的高性能数据分析库(T)

5、Jupyter是一个交互式的数据科学与科学计算开发环境(T)

填空题

1、python中的多行注释使用三引号/’’’表示。

2、pandas能对数据进行排序、分组、归并等操作。

3、Scikit_learn包括多种分类、回归、聚类、降维、模型选择和预处

理的算法。

4、Matplotlib是一个绘图库。

5、将Ipython项目中与其程序设计语言无关的部分独立出来形成的

新项目是Jupyter。

第三章

选择题

1、下列不是集中趋势的主要测度的是?(D)

A、均值

B、中位数

C、众数

D、方差

2、下列不是离散程度的主要测度的是?(D)

A、极差

B、方差

C、标准差

D、中位数

3、下列不属于数据质量的评估标准的是?(C)

A、完整性

B、一致性

C、可控性

D、及时性

4、下列不属于噪声数据处理方法的是你?(B)

A、分箱技术

B、同化技术

C、聚类技术

D、回归技术

5、下列不属于特征提取方法的是?(B)

A、主成分分析

B、多重判别分析

C、独立成分分析

D、线性判别分析

对错题

1、数据库中不含缺失值的变量被称为完全变量(T)

2、噪声是指被观测变量的随机误差或标准差(F)

3、一致性是指数据是否合乎规范,数据内的数据是否保持一致的格

式(T)

4、及时性是指数据产生到可以查看的时间间隔,也叫数据的延时时

长(T)

5、特征构建是指从预处理的数据中人工构建新的特征(F)

填空题

1、数据分析需要特别关注集中趋势、离散程度两点。

2、一般可以通过数据统计中的记录值和唯一值两个值来评估数据质

量的完整性。

3、数据质量是数据分析结果的有效性和准确性的前提保证。

4、异常数据如果没哟规律可循几乎不可能被还原,只能将其过滤。

5、特征提取是在原始特征的基础上,自动构建新的特征,将源石特

征转换为一组更具物理意义、统计意义或者核的特征。

第四章

选择题:

1、关于NumPy说法不正确正确的是(D)

A、NumPy是Python处理数组和矢量运算的库。

B、NumPy是高性能计算的基础。

C、NumPy是数据分析的基础。

D、Pandas、scikit-learn和Matplotlib是NumPy的基础

2、关于ndarray对象说法不正确正确的是(D)

A、Ndarray对象指的是多维数组对象。

B、Nda

文档评论(0)

各类考试卷精编 + 关注
官方认证
内容提供者

各类考试卷、真题卷

认证主体社旗县兴中文具店(个体工商户)
IP属地河南
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档