大数据应用基础培训课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学 1 目录 批判性思维 统计学思维 A/B测试 统计学方法分类 2 懂统计学有什么用? 能更好地辨别各种分析。 3 熟悉一下常见的批判性思维 4 歧义 语言经常是模糊的。有些词是多义词。 听众要结合上下文弄明白发言者的每个词的确切意思。发言者要界定清楚那些多义词的确切含义。 5 因果关系 以先后论因果:A在B之后发生,不见得说明A会导致B 很多事情发生的原因其实不止一个 不应盲目以结果好坏判断决定的优劣 分析的结论不一定只有一个 6 证据与信息源 发言者有时把个人经历、典型个案、专家意见作为证据。这些证据都可靠吗? 发言者是否省略了重要的数据 信息源可靠吗? 发言者所引用的数据是否来历不明 7 证据 从众心理:大家都认为如此,就一定如此吗?共识有可能是危险的。就算有数百万人声称某件蠢事是对的,这件蠢事也不会因此成为聪明之举。 虚假类比——他总玩游戏但是上MIT了,你跟他都是人,所以你总玩游戏也能上MIT。 样本能代表总体吗?样本有代表性吗? 样本足够大吗? 8 个人经验可靠吗? 你是否纠缠于沉没成本?为什么我们试过衣服后一般就会买下来?为什么经验有时让人变蠢?为什么拿锤子的人会把一切看成钉子?为什么自己做的菜吃起来更香?为什么我们会认为现状最好? 9 分析一下发言者的背景和目的 应该试图了解发言者的背景、并判断其可能想要达到的目的。 发言者是否试图转移别人的注意力,回避真正的问题。为什么推销员说出产品缺陷时,我们也须谨慎?显眼的不一定等于是重要的 为什么我们不要购买包装过于精美的产品?为什么要忽略讨人喜欢的推销员? 10 典型的统计学思维 11 重视变异性 应高度关注变异性,不要用平均数来掩盖异常值。在社会上,对平均值的滥用随处可见。平均值就像安眠药,把你催眠,但你没有注意到变异性,就有可能带来损失。 比如,一个富翁走入一家坐满了穷人的酒吧,酒吧里人均收入将迅速提升,但每个穷人并没有因此致富。 比如,有两家公司的年均增长率都相同,但是其中一家每年增长率很稳定,而另一家的每年的增长率不断上下波动,那么显然,两家公司的资金需求就截然不同了。 12 重视组间差异 如果组间存在差异,就应该把几个组分开,而不应合并起来统计。 不同的组有时是不具有可比性的。 13 不要过分在意小概率事件 不要过分在意小概率事件:遭遇空难和中彩票其实都是小概率事件,发生的可能性很小,所以不必为了活命而惧怕坐飞机,也不必为了赚钱而玩彩票。在个体遇到医疗健康相关的问题,或者企业家遇到经营管理问题的时候,都容易以偏概全,认为个人体验到的就是总体的全局的情况。 另一方面,如果你觉得奇迹的发生是天意,你就错了。几乎不可能发生的事件也有发生的必然性。 14 尽量提高预测精度 在有监督学习中,应努力减少假阴性和假阳性,两者都要尽量减少。 比如,在通过分析网上数据识别恐怖分子时,如果宁可错杀三千,不可放过一个,那么很可能会冤枉很多好人。 15 重视随机对照试验和回归分析 相关关系并不等同于因果关系。 最强的用于检测因果关系的统计学武器:随机对照试验 无法进行随机对照试验时该怎么办? 做回归分析。 16 回归分析中的遗漏变量偏差 在回归分析时,有时会出现变量遗漏偏差。比如,有研究认为“常打高尔夫易患心脏病、癌症和关节炎”——真的吗?其实是因为打高尔夫者年龄更大,疾病多只是因为年龄大而已。 一些教育学者就常常用数据说话,声称电子游戏会加大孩子的暴力倾向,却遗漏了暴力倾向加大有着多重诱因。家庭教育、父母性格及行为习惯所起到的作用更大。 17 循环论证 即便存在因果关系,因与果之间可能会存在双向影响。需要在得出结论前把这一点考虑到。 是否存在循环论证? 18 统计学思维的通俗入门书 《看穿一切数字的统计学》 《赤裸裸的统计学》 《数据统治世界》 19 A/B测试 A/B测试是互联网产品设计人员最熟悉的网页优化方法,能够对比不同版本的设计,选取更吸引用户眼球的那一款,以便增加用户点击、回访、购买等行为,或者增加转化率注册率等。 为了搞清楚哪个功能或设计更好,每个网站或移动应程序的数据科学家都离不开A/B测试工具。 A/B测试有点类似于统计学里面的随机对照实验。 20 A/B测试的重要性 不少互联网巨头都是A/B测试的忠实信徒,这其中就包括Google、Amazon、Bing、Netflix等。 搜索引擎、有推荐系统的网站、大型门户网站往往非常倚重A/B测试。这种公司的网站设计很多时候是数据驱动的。 谷歌连工具栏上的颜色选择也要A/B测试。 21 A/B测试的步骤 使用A/B测试首先需要建立一个测试页面(variation page),这个页面可能在标题字体、背景颜色、措辞等方面与原有页面(control page)有所不同。 然后将这两个页面以随机的方式同时推送给所有浏览

文档评论(0)

扶摇直上九万里 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档