- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据与计算科学基础
2022-7-21
第6章 数据收集与预处理
01
数据的来源、数据分类与数据集
02
数据收集
03
数据预处理
1. 数据的来源
(1)直接来源
直接的调查和科学的试验,这是统计数据的直接来源。例如,地质勘探和测量数据,人口普查数据等。
(2)间接来源
来源于别人调查、试验的或是通过数据计算衍生出来,这是统计数据的间接来源。例如在前面章节介绍的数据记录,就是经过数据计算后衍生出来的间接数据,包括文本、音频、图像与视频等。
6.1 数据的来源、分类与数据集
2. 数据的分类
(1)按数据的表示形式
可将数据分为模拟数据和数字数据。模拟数据是指在某个区间产生的连续值,例如,一系列连续变化的电磁波,或电压信号,模拟数据一般用浮点数来表示;数字数据指的是取值范围是离散的变量或数值,有限个值,例如一系列断续变化的电压脉冲,常表示为整数变量。
(2)按数据标识方式
按数据标识方式可分为静态数据、动态数据。
静态数据可收集到本地以数据本身呈现,一般不随运行而变。比如一个单位的名称、员工信息、系统参数等。
动态数据是指在系统应用中随时间变化而改变的数据。动态数据可以使用链接、查询形式进行标识,动态数据是常常变化的,例如日销售额、网站访问量、在线人数、Web库存数据等。
(3)按数据的结构
按数据的结构可分为结构化数据、非结构化数据和半结构化数据。在第一章的1.1.3节中我们详细介绍了这三种数据的概念、特点以及各自的表现形式。在此不再做重复介绍。
6.1 数据的来源、分类与数据集
3. 数据集
数据集是数据的集合。数据集通常以表格形式出现,表格中的每一行代表一个数据对象,被称为记录、样本或实体。数据集中的每一列对应一个属性,是对对象的一个特性的描述,属性也被称为变量、字段或维。如图6-1所示,学生成绩表中有5个数据对象(记录)、每个数据对象用学号、高等数学、大学英语、大学计算机4个属性(变量或字段)来描述。
6.1 数据的来源、分类与数据集
数据集有三个重要特性:维度、稀疏性和分辨率。
维度:数据对象具有的属性个数的总和。Excel列表中指的是表格的字段个数。
稀疏性:指的是某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0,非零项不到1%。
分辨率也称粒度,是指不同分辨率下数据的性质不同。如图像数据集,不同分辨率下得到的数据是不一样的。
1. 数据收集的途径
(1)文本数据
文本数据是指以纯文本形式存储的表格数据,主要包括数字和文本。文本数据文件是一个字符序列,使用任意文本编辑器都可以查看和编辑其内容。采集文本数据时可在Excel菜单中直接导入。
(2)数据库
数据库中的数据是按指定数据结构来组织、存储和管理的,是以指定的方式存储在表中。采集数据库中的数据可在Excel中直接导入。
(3)网站数据
采集网站数据的常用方法是先在浏览器中访问相应的网站,然后使用鼠标选中网页中的表格复制后,粘贴到Excel工作表中。
(4)从文件夹批量导入多个文件进行数据收集
很多时候,原始数据分散保存在多个文件中,如不同的业务部门按月保存各自的业务数据。在Excel环境中采集这些数据时,可通过【数据】选项卡的【获取数据】→【自文件】逐个导入文件,但是文件数量比较多时,逐个导入需要耗费大量的时间。在Excel 2019版本中提供了从文件夹批量导入多个文件的功能,可轻松解决这个问题。
(5)整合多种数据源创建数据集合
数据分析中经常会遇到多种数据源使用不同的数据格式,如数据分析师维护的数据表一般会使用Excel格式的文件,而企业信息化系统的输出文件更多采用文本格式文件。Excel 2019版本的数据获取与转换功能,无须事先统一基础数据的数据文件格式,可直接完成导入和数据分析。
6.2 数据收集
6.2.1. 数据收集的途径与方法
2. 数据收集的方法
(1)调查法
调查法一般分为普查和抽样调查两大类,该方法被广泛应用于社会和经济研究应用中。如人口普查就是一种常用的普查方法。相对于普查,抽样调查具有省时、省力、节约财力等优点,其适用范围比较广,如商品市场的价格波动调查、家庭收支情况等。
(2)实验法
实验法是通过实验过程获取数据信息的方法。该方法被广泛应用于科学应用研究。
(3)文献检索法
文献检索是从浩繁的文献中检索出所需的信息的过程,文献检索主要是计算机检索。
(4)网络搜寻法
网络搜寻法就是运用互联网通信平台来搜索数据信息的方法。它是信息时代的一种非常重要的数据采集方法。
6.2 数据收集
1. 数据录入与管理规范
在Excel中输入的数据必须遵守数据管理规则。如果基础数据的录入不规范,则会严重影响到后续的数据统计和分析操作。数据表的录入与管理原则要点如下:
① 工作表的首行用作各列的列标题,来说明每列数据的作用和属
您可能关注的文档
- 传感器与检测技术 习题答案 (胡向东 第 4版) 第11--20章 化学传感器---自动检测系统.pdf
- 传感器与检测技术 习题答案 (胡向东 第 4版) 第1--10章 概述---辐射与波式传感器.pdf
- 数据与计算科学基础_第1章 数据与计算概述.pptx
- 数据与计算科学基础_第2章 计算机系统.pptx
- 数据与计算科学基础_第3章 数据的表示.pptx
- 数据与计算科学基础_第4章 算法.pptx
- 数据与计算科学基础_第8章 数据分析与可视化.pptx
- 数据与计算科学基础_第7章 数据计算.pptx
- 数据与计算科学基础_第5章 计算机语言与程序.pptx
- Animate动画设计教程(AnimateCC2018)(微课版)-教学大纲 及 教案全套.docx
原创力文档


文档评论(0)