数据与计算科学基础_第6章 数据收集与预处理.pptx

数据与计算科学基础_第6章 数据收集与预处理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据与计算科学基础 2022-7-21 第6章 数据收集与预处理 01 数据的来源、数据分类与数据集 02 数据收集 03 数据预处理 1. 数据的来源 (1)直接来源 直接的调查和科学的试验,这是统计数据的直接来源。例如,地质勘探和测量数据,人口普查数据等。 (2)间接来源 来源于别人调查、试验的或是通过数据计算衍生出来,这是统计数据的间接来源。例如在前面章节介绍的数据记录,就是经过数据计算后衍生出来的间接数据,包括文本、音频、图像与视频等。 6.1 数据的来源、分类与数据集 2. 数据的分类 (1)按数据的表示形式 可将数据分为模拟数据和数字数据。模拟数据是指在某个区间产生的连续值,例如,一系列连续变化的电磁波,或电压信号,模拟数据一般用浮点数来表示;数字数据指的是取值范围是离散的变量或数值,有限个值,例如一系列断续变化的电压脉冲,常表示为整数变量。 (2)按数据标识方式 按数据标识方式可分为静态数据、动态数据。 静态数据可收集到本地以数据本身呈现,一般不随运行而变。比如一个单位的名称、员工信息、系统参数等。 动态数据是指在系统应用中随时间变化而改变的数据。动态数据可以使用链接、查询形式进行标识,动态数据是常常变化的,例如日销售额、网站访问量、在线人数、Web库存数据等。 (3)按数据的结构 按数据的结构可分为结构化数据、非结构化数据和半结构化数据。在第一章的1.1.3节中我们详细介绍了这三种数据的概念、特点以及各自的表现形式。在此不再做重复介绍。 6.1 数据的来源、分类与数据集 3. 数据集 数据集是数据的集合。数据集通常以表格形式出现,表格中的每一行代表一个数据对象,被称为记录、样本或实体。数据集中的每一列对应一个属性,是对对象的一个特性的描述,属性也被称为变量、字段或维。如图6-1所示,学生成绩表中有5个数据对象(记录)、每个数据对象用学号、高等数学、大学英语、大学计算机4个属性(变量或字段)来描述。 6.1 数据的来源、分类与数据集 数据集有三个重要特性:维度、稀疏性和分辨率。 维度:数据对象具有的属性个数的总和。Excel列表中指的是表格的字段个数。 稀疏性:指的是某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0,非零项不到1%。 分辨率也称粒度,是指不同分辨率下数据的性质不同。如图像数据集,不同分辨率下得到的数据是不一样的。 1. 数据收集的途径 (1)文本数据 文本数据是指以纯文本形式存储的表格数据,主要包括数字和文本。文本数据文件是一个字符序列,使用任意文本编辑器都可以查看和编辑其内容。采集文本数据时可在Excel菜单中直接导入。 (2)数据库 数据库中的数据是按指定数据结构来组织、存储和管理的,是以指定的方式存储在表中。采集数据库中的数据可在Excel中直接导入。 (3)网站数据 采集网站数据的常用方法是先在浏览器中访问相应的网站,然后使用鼠标选中网页中的表格复制后,粘贴到Excel工作表中。 (4)从文件夹批量导入多个文件进行数据收集 很多时候,原始数据分散保存在多个文件中,如不同的业务部门按月保存各自的业务数据。在Excel环境中采集这些数据时,可通过【数据】选项卡的【获取数据】→【自文件】逐个导入文件,但是文件数量比较多时,逐个导入需要耗费大量的时间。在Excel 2019版本中提供了从文件夹批量导入多个文件的功能,可轻松解决这个问题。 (5)整合多种数据源创建数据集合 数据分析中经常会遇到多种数据源使用不同的数据格式,如数据分析师维护的数据表一般会使用Excel格式的文件,而企业信息化系统的输出文件更多采用文本格式文件。Excel 2019版本的数据获取与转换功能,无须事先统一基础数据的数据文件格式,可直接完成导入和数据分析。 6.2 数据收集 6.2.1. 数据收集的途径与方法 2. 数据收集的方法 (1)调查法 调查法一般分为普查和抽样调查两大类,该方法被广泛应用于社会和经济研究应用中。如人口普查就是一种常用的普查方法。相对于普查,抽样调查具有省时、省力、节约财力等优点,其适用范围比较广,如商品市场的价格波动调查、家庭收支情况等。 (2)实验法 实验法是通过实验过程获取数据信息的方法。该方法被广泛应用于科学应用研究。 (3)文献检索法 文献检索是从浩繁的文献中检索出所需的信息的过程,文献检索主要是计算机检索。 (4)网络搜寻法 网络搜寻法就是运用互联网通信平台来搜索数据信息的方法。它是信息时代的一种非常重要的数据采集方法。 6.2 数据收集 1. 数据录入与管理规范 在Excel中输入的数据必须遵守数据管理规则。如果基础数据的录入不规范,则会严重影响到后续的数据统计和分析操作。数据表的录入与管理原则要点如下: ① 工作表的首行用作各列的列标题,来说明每列数据的作用和属

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档