探索性数据分析.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
探索性数据分析 肖波 中央民族大学 探索式数据分析 统计推理 总体和样本 建立模型 概率分布 探索式数据分析 科学数据处理 数据科学家的角色 案例研究 探索性数据分析 所谓探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。 数据每天都在产生 我们生活的世界是复杂的,随机的和不确定的。同时它又是一个生成大数据的机器。 当我们通勤于地铁和出租车时,当我们的血液流经我们的身体时,当我们通过浏览器在因特网购物、发邮件、完成工作和看股票时,当我们行动、饮食、与朋友谈话时,当工厂生产出产品时,所有这一切都在生成数据。 1.统计推理 一旦你持有了全部数据,你就某种程度上掌握了这个世界或抓住了世界的轨迹。但是你不可能在一个有几百万数据的大型Excel表或数据库上遍历,获取图形,理解现实和处理它所生成的数据。 故你需要一个新的理念,去简化这些捕获的数据,使之更加容易理解,方法更加简洁,使得数据适合于建立数学模型和函数。这就是大家知道的统计方法。 从现实到数据又从数据回到现实的全过程就叫统计推理。 2.总体与样本 总体是指某一事物的全体成员。它可以是任何对象,如推特、照片或星球的全体。 如果我们可以测度这些对象的特征,我们就要有一个完整的观测集。通常用常数N来表示对于总体的观测数量。总体中的N个单独个体就是样本。获取样本的过程叫采样。 3.抽样 当我们抽样时,我们是抽取总体中的一个大小为N的子集,以便对总体进行推理和得出某种结论。从总体取得子集有各种不同的方法。你要确保合理的采样机制,因为它可能为数据带来偏差并扭曲结果。所以样本并不是总体收缩了的“小我”版本。一旦发生这种情况,你的所有结论都是错误的和歪曲了的。 抽样案例研究 在BigCorp公司邮件的案例中, 你可以制作一个全体雇员的表,然后从所有他们已发送的邮件中随机选择十分之一。这些邮件就是你的样本。 你也可以每天从发送的邮件中随机抽取十分之一作为你的样本。 两个方法都是有道理的,两方法也都抽取了同样样本个数。但是如果你用得到的样本计算平均每个人发送的邮件个数和用样本来估算BigCorp公司每个雇员发送邮件数的概率分布,你也许会得到完全不同的答案。 4.大数据时代的总体和样本 大数据时代我们无时不在地记录所有用户的行为,我们就可以观察所有的事物吗?还需要考虑总体和样本吗?上例中如果我们取得了所有的邮件,我们还需要抽样吗? 大数据也需要抽样 在当前大数据的热门讨论中,人们主要聚焦于用Hadoop这样的企业解决方案来应对大数据引起的工程和计算挑战,忽略了抽样这一合理的解决方法。可是在Google公司软件工程师,数据科学家和统计学家一直在使用抽样方法。 你需要多少数据取决于你的目标是什么。对于目标为分析和推理来说没必要取得全部时间的全部数据。而在有的情况下,出于服务目的,为了取得正确的信息以润色一个用户界面时(可视化图形),对于特殊的用户就需要全部信息。 案例研究:大数据隐含的偏见 如果你在飓风桑迪之前和之后立即分析数据。你会认为大部分人在桑迪前在超市购物,桑迪后在举办派对。可是事实是大部分推特用户是纽约人,首先他们比海岸新泽西人用户多得多。其次是海岸新泽西人在担心他们的房子受损去找维护材料,他们没有时间去上推特。 换言之,你使用推特的数据来理解的话你会认为飓风桑迪没有那么糟糕。你得出这样的结论是因为你采用了飓风桑迪的推特用户数据的一个子集(他们不能代表全体美国人)。缺席的人因为形势所迫没时间去上推特。 如果你没有结合实地情况和充分了解飓风桑迪,你将无法对结果做出正确的解释。 5.样本与采样分布 在统计学中我们经常用数学模型来模拟总体与样本之间的关系。故我们总是要做一些能反应真实的简化了的假设。用过程产生的数据来建立数学模型和图形。 我们只观察生成过程中特殊的一部分数据,这就叫样本。 由这种采样产生的不确定性有个名字叫:采样分布。 6.采样取得的新数据类型 (传统:十进制数值,二进制) 文本:电邮,推特,报刊文章 记录:用户级数据,时间戳事件数据,格式化登录文件 地理位置信息: 网络数据 传感器数据 图像、视频数据 7.大数据的定义 “大”是相对的。构造一个类似于1PB这样的阈值是没有意义的,它听起来太绝对。只有当数据的数据量大的成为一种挑战时才能称之为“大”。它是一个由于数据量大已经无法求解(内存,外存,复杂性,处理速度都无法满足)时的相对的术

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档