光环大数据告诉你什么是数据分析 数据科学.pdfVIP

光环大数据告诉你什么是数据分析 数据科学.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
光环大数据告诉你什么是数据分析 数据科学.pdf

光环大数据--大数据培训知名品牌 光环大数据告诉你什么是数据分析/数据科学 无论是学术研究还是业界实践,解决问题都是生产力的关键。而解决问题, 首先要定义问题。当经验不可靠,实验做不了(或者成本太高)的时候,我们只 能依赖历史信息帮助我们做关于未来的决策,特别是在与人有关的社科和商科领 域。方法我们大体可以分为两大类,一大类是定性方法,一大类是定量方法。定 性方法在社会学和心理学领域等领域仍然发挥着巨大的作用,不过不是本文的讨 论重点;另一大类是定量方法,随着统计学方法和计算机技术的发展,定量方法 变得越来越可靠,因此发展迅速。大家概念中的“数据分析”或者“数据科学”, 通常指的就是定量地定义问题、并基于历史观测数据(而不是实验数据)和定量 方法解决问题,让数据自己讲故事而不是通过经验或者通过实验讲故事。因此, 所有有可靠的可定量的数据的问题都可以基于数据分析方法解决,而远不止商业 问题。那么怎么定量的定义问题和怎么使用历史观测数据定量地解决问题呢? 首先讨论定量地定义问题。问题的定义可以分为三步: 第一步,把问题目标定量地定义成因变量y。比如说,CPP 最近在组织发放 问卷的助研项目,那么我们的问题就可以被定义为“助研团队发放的总问卷数”。 第二步,把可能的因素定量地定义成自变量x。比如说,给助研更多的激励 可以刺激更多助研加入,从而提高总问卷发放数量;给问卷做更多的培训可以让 光环大数据 光环大数据--大数据培训知名品牌 助研更有经验,从而提高每个人平均发放的问卷数。 第三步,找出y 和x 的关系,即y=f(x)+e。这里的f 是一个映射关系,不 一定一定要是一个含参数的线性或者非线性函数,e 是误差项。这里的关系有两 大类,一大类是相关关系,关注E(y|x)或者E(y|observe(x)),可以用来做预测, 统计学和机器学习比较多关注预测关系或者统计上的因果关系(即如何预测,而 不是真正的因果关系);另一大类是因果关系,关注E(y|do(x)),可以用来做因 果解释,通常要求我们在前者的基础上结合问题背景和学科背景的准实验方法让 observe 可以当成do 来处理(比如经济学中的自然实验、IV、DID、断点回归等 简化模型方法),或者基于问题背景和学科背景的可以解释x到y 的逻辑以及do(x) 如何影响y 的方法(比如经济学中的结构模型方法),这是计量经济学关注的重 点。我们希望得到的结论是,有(observe)哪些身体特征(自变量 x)的病人 更可能得以及在多大程度上可能(相关关系)胃病(因变量y),或者吃了(do) 什么药(自变量x)更可能以及多大程度上可能(因果关系)让病人的病好(因 变量y,是否病好可以是0、1 变量)。 下面讨论如何基于历史观测数据定量地解释数据。 第一步,获取数据。巧妇难为无米之炊,基于观测数据解决问题,首先就要 有观测数据。这个问题可以简单也可以复杂,解决这个问题的方法也越来越多。 比如大家熟悉的网页爬虫,就是常见的一种收集海量互联网公开数据的方法,网 页爬虫技术的进步帮助很多问题提供了数据源。 光环大数据 光环大数据--大数据培训知名品牌 第二步,清洗数据。原始数据通常是很混乱的,很难直接用作分析。比如说, 从天猫或者京东获取的商品名通常是极度混乱的,比如“徐同泰豆捞酱油寿司海 鲜火锅澳门豆捞调味品生抽日本日式刺身调料”(徐同泰豆捞酱油寿司海鲜火锅 澳门豆捞调味品生抽日本日式刺身调料- 天猫),这是一个酱油,但是 如果直接看名字„„我们经常需要通过各种自动化程序甚至大量的人工来处理 掉这些乱七八糟的情况,通常这部分会占一个数据分析项目80%以上的工作量。 第三步,特征提取。传统问题下提取特征是比较容易的,比如说数一下某类 商品的数量、把年龄按某个规则分为几组,把字符串变量打标签成离散变量等等。 在大数据背景下,我们需要从海量的数据里面挖出新的信息作为自变量x,比如 说我们需要挖掘文本的特定词语的词频特征做这

文档评论(0)

duyingjie1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档