6种数据分析实用方法,终于有人讲明白了.docxVIP

6种数据分析实用方法,终于有人讲明白了.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

01应用统计与数学

与前面许多已经讨论过的概念一样,人们如何定义统计以及统计与一般数学(mathematics)有何不同,存在着很大的差异。

有些人认为统计是数学的一个分支(Merriam-Webster,2017b),而另一些人(如JohnTukey(Brillinger,2002))则认为统计是一门独立的科学。大多数人认为,就像物理学也使用数学方法但不是数学一样,统计学使用数学但它并不是数学(Milley,2012)。

统计涉及数据的收集、组织、分析、解释和展示。如果使用这个广义的定义,它听起来和分析的概念非常像。然而,分析和数据科学都使用统计学的数量分析基础,但它们的关注范围比传统统计更广泛,而关于统计与其他学科之间的概念关系有几十个观点,我列举了我所看到的这些概念之间的关系,如图1-3所示。

▲图1-3统计与其他定量学科之间的关系

数学具有一定的绝对和可确定的性质,而数学的教学方式(至少在美国学校是如此)灌输了一种以确定性的方式来看待数量世界的思想。也就是说,我们被教导相信,所有的事实和事件都可以被解释清楚。

但是,统计则把量化数据看成概率的或随机的。也就是说,根据事实可能会推导出普遍正确的结论(除了简单的随机性),但必须承认,存在一些无法准确预测的随机概率分布或模式。

拓展学习

想要学习更多的统计学历史及它如何改变科学,请阅读DavidSalsburg的书TheLadyTastingTea。

如图1-4所示,数学思维是演绎性的(即,它通过应用一般定律或原则来推断某一特定实例),而统计推理是归纳性的(即,它从具体实例中提炼出一般规律)。

▲图1-4归纳推理与演绎推理的比较

这种差异在分析的环境下是很重要的,因为我们将归纳推理和演绎推理应用于分析解决不同的问题。因此,将数学和统计都应用到分析领域是适当的和必要的。如果开展分析是一种全面的策略,那么统计和数学就是在众所周知的分析工具箱中帮助我们实现该策略的两个工具。

线性规划(linearprogramming)可用于支持我们分析解决一类特定的优化问题。例如,迪士尼公司在其数据科学类工作中使用线性、非线性、混合整数和动态规划,来解决诸如优化餐厅座位安排、减少公园之间乘车的等待时间、安排工作人员(如演员)时间表等方面的问题。

请注意,为了讨论的方便,我在这里不严格区分运筹学(operationresearch)、数学最优化(mathematicaloptimization)、决策科学(decisionscience)或精算科学(actuarialscience)之间的区别,因为在我看来,它们都是我们分析工具箱中众多分析工具的组成部分而已,可以根据思考和解决问题的需要而灵活使用。

线性规划

线性规划是解决问题的一个数学方法,其输出是一个线性模型函数。例如,我们可能想通过调节几个关键因素,比如外科手术的复杂度、需要医务人员的数量、可能出现的并发症等,来优化急救部门的效能。

02预测和时间序列

在讨论支持分析的方法时,预测和时间序列往往被一起提及,并不是因为它们是同一种方法,而是因为它们都针对同一类问题,即基于历史信息对时间序列数据进行特征提炼和预测。

预测和时间序列分析是指对时间序列数据进行分析、从数据中提炼有意义特征的方法。很多时候,预测被描述为通过历史数据对趋势进行判断,并通过可视化手段进行直观展现的方法,有些还提供了关于未来的预测。

而时间序列分析不同于预测,虽然你需要时间序列数据来进行预测,但并非所有的时间序列分析都是用来进行预测的。例如,时间序列分析可用于在多个时间序列中发现模式或相似的特征,或执行统计过程控制。类似地,季节性的分析也可以用来识别模式。

时间序列分析采用了多种方法,既有定量的,也有定性的。时间序列分析的目的是在历史数据(或时间序列数据)中找出一种模式,然后推测未来趋势。通常有四大类时间序列分析方法,如图1-5所示。

▲图1-5预测和时间序列分析的方法

一般而言,定量方法是最常见的预测方法。但是,当无法获得定量的历史数据时,或者广泛存在不确定性时,使用定性分析和决策分析方法也很普遍。

03自然语言处理

自然语言处理(NaturalLanguageProcess,NLP)是指通过计算机来理解和生成“自然语言”的方法。

当前,NLP是一个专注于人类语言和计算机之间相互交互的研究领域,处于计算机科学、人工智能和计算语言学的交叉领域。文本挖掘和文本分析技术通常可以互换使用,既是NLP的前置活动也可以是NLP本身的应用。

NLP的目标是理解计算机文本中的自然语言,NLP用于文本的分类、提取和总结,我们在理解和技术方面的进步正迅速将NLP推向分析和其他许多领域应用的前沿。例如,在分析过程中,我们获取过去的描述信息(如文本、文档、推文

文档评论(0)

外卖人-小何 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档