数据分析基础课程 第2章 数据的收集.pptxVIP

数据分析基础课程 第2章 数据的收集.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录/Contents;2.1 理解数据;;2.1.2 数据的呈现形式 1.不同个体在同一标志上的不同取值 在Excel中,这样的数据可以排成一列,也可以排成一行或一个矩形块。 某公司100名职工的月基本工资数据资料如图2-2和图2-3所示。;2.数据清单 不同个体在多个标志上的取值所组成的二维表格,在Excel中叫数据清单,如图2-4所示。 ;Excel数据清单包含一行列标题和多行数据,清单中的每一列称为一个字段,列标题称为字段名(即统计学中的标志);清单中的每一列数据的类型和格式完全相同;清单中每一行数据称为一条记录。 数据清单中不能有合并单元格的形式。 多个相关的数据清单在一起,就称为一个数据库。 ;2.2 数据的来源; 3.问卷调查法 问卷调查法是把调查项目列于表格上形成问卷,通过发放问卷搜集调查对象情况的一种采集资料的方法。问卷中问题的设计应注意以下原则。 (1)具体性原则,即问题的内容要具体,不要提抽象、笼统的问题。 (2)单一性原则,即问题的内容要单一,不要把两个或两个以上的问题合在一起提。 (3)通俗性原则,即表述问题的语言要通俗,不要使用使被调查者感到陌生的语言,特别要避免使用过于专业的术语。 (4)准确性原则,即表述问题的语言要准确,不要使用模棱两可、含混不清或容易产生歧义的语言或概念。 ;(5)简明性原则,即表述问题的语言应该尽可能简单明确,不要冗长和啰唆。 (6)客观性原则,即表述问题的语言要客观,不要有诱导性或倾向性语言。 (7)非否定性原则,即要避免使用否定句形式表述问题。 (8)可能性原则,即必须符合被调查者回答问题的能力。凡是超越被调查者理解能力、记忆能力、计算能力、回答能力的问题,都不应该提出。 (9)自愿性原则,即必须考虑被调查者是否自愿真实回答问题。凡被调查者不可能自愿真实回答的问题,都不应该正面提出。;4.抽样调查法 抽样调查法是根据随机性原则,从研究对象的总体中抽取一部分个体作为样本进行调查研究,据此推断有关总体的数字特征的研究方法。抽样应遵循以下原则。 (1)随机取样。 (2)取样应具有代表性。 (3)若样本由具有明显不同特征的部分组成,应按比例从各部分抽样。 5.实验法 实验法是在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需的资料。 6.报告法 报告法是通过报告单位根据一定的原始记录和台账,根据统计表的格式和要求,按照隶属关系,逐级向有关部门提供统计资料的一种调查方法。;7.自动生成 在大数据时代,数据的产生方式呈现多样化,如从传感器、摄像头自动收集的数据,电子商务在线交易日志数据、应用服务器日志数据等自动保存的数据都是自动生成的数据。;2.2.2 二手数据 二手数据也称为次级数据,是指那些从同行或一些媒体上获得的、经过加工整理的数据,比如国家统计局定期发布的各种数据,从报纸、电视上获取的各种数据。 1.导入Access数据 (1)在Excel中单击“数据”|“自Access”按钮,如图2-5所示。;(2)在弹出的对话框中选择需要的Access文件“图书销售.accdb”,如图2-6所示。 ;(3)单击“打开”按钮,在弹出的对话框中选择需要的表“销售情况”,如图2-7所示。 (4)在弹出的对话框中确定数据的显示方式和放置位置,如图2-8所示。 ;(5)单击“确定”按钮,导入的结果如图2-9所示。 ;2.导入网站表格数据 (1)在Excel中单击“数据”|“自网站”按钮,如图2-10所示。 (2)输入或复制并粘贴网址。 ;导入的结果如图2-12所示。 (3)也可以选择网页上的数据后,单击鼠标右键,在弹出的快捷菜单中选择“复制”命令,如图2-13所示,再到Excel中粘贴即可。 ;3.利用爬虫软件下载网络数据 万维网上更多的数据是以非表格形式呈现的。 如何有效地提取并利用这些信息成为一个巨大的挑战。 为了解决上述问题,定向抓取相关网页资源的软件——聚焦网络爬虫应运而生。 聚焦网络爬虫是一种能自动下载万维网数据的程序,它能按照一定的规则,根据既定的目标,自动地抓取万维网上的数据。

文档评论(0)

allap + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档