大数据时代——未来世界的数据分析法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代——未来世界的数据分析法 在 2013 年 2 月 13 号那天,圣安东尼奥马刺队做客克利夫兰迎战骑士 队,整场比赛都打得十分焦灼。直到第四节最后时刻,骑士的新秀得分 后卫迪昂-韦特斯命中了他菜鸟赛季最大心脏的一球,一记高难度跳投, 力助球队在最后 9.5 秒取得了 2 分的领先优势。但问题是,他留给了马 刺 9.5 秒的时间,观众们都已经嗅到了翻盘的味道,速贷中心那些骑士 球迷的情绪甚至都开始失控。 马刺队叫了暂停,获得了一次前场球的机会,他们决定打一个他们最喜 欢的战术。马特-邦纳快速把球发给了距篮筐 30 尺远的托尼-帕克,待 邓肯做了个结结实实的挡拆,迫使泰勒-泽勒换防帕克,帕克抓住这一 时机迅速从左侧突破。比赛还剩下 6.7 秒,帕克控制了下平衡,准备来 一个他命中率最高的上篮来扳平比分。霎时间,他看到了什么,然后改 变了他的主意。 科怀-伦纳德安静的待在弱侧底角,没有人注意到他。因为帕克突的十 分坚决,侵略性十足,他的突破成功吸引了伦纳德的防守者——韦特斯, 他一直被吸引到了禁区。而伦纳德就静静的杵在那块无人区,帕克很快 也注意到了这点,于是帕克手腕一甩,送出了一记精准的助攻,那球沿 着底线直直的飞向了伦纳德,韦特斯绝望的扑上去也只是徒劳。剩下的 就是例行公事,那个时候,这个漂亮的助攻已经完成,伦纳德只需要在 他最喜欢的位置投中最喜欢的那个底角三分。他投进了,而马刺也以一 分的优势带走了胜利。 数据统计上把这个漂亮的战术简化为了几个基本的数字:马刺 2 号球员 科怀-伦纳德增加 1 次出手,1 次命中,添上 3 分。蒂姆-背景帝-邓肯 的挡人没有任何记录,而帕克犀利的绕掩护突破和精彩的传球最终仅被 记上一笔助攻。 事后,帕克提到了比赛最后的那个战术:“我想我本可以命中那个上篮, 但我看到了空位的科怀。我不只是要拿下一场胜利,我还要组织好我的 队友们,让他们能整晚出色的发挥,所以在最后时刻我愿意做一个正确 的决定。” 研究小组的创建 在 2012 年 MIT Sloan Sports 分析大会之后不久,我收到了布莱恩-库 普的来电,他是 NBA 球员追踪数据界的圣约翰,同时也是芝加哥 SportVU 公司 STATS LLC 项目的负责人。我那会儿在哈佛大学工作, 库普给我分享了他那非凡卓绝的学术成果——篮球数据集;他问我是否 也想“玩一些光学追踪数据”。我错过了这次机会,因为我完全不知道 我到底要去做什么。 那次电话后又过了几个星期,我才第一次看到那个项目的基础数据,这 是由许多,甚至可以永远的改变篮球分析方式的数据组成的;这绝对是 一个“超神(Holy shit!)”的时刻。那个时候我正在用一块巨大的 27 寸的苹果电脑,可当我双击那个 SportVU 的第一个文件时,数据还是 立刻占满了整个屏幕。我所看见的就是一片小数点和跟踪数据组成的浩 瀚海洋和数百个穿插其中的 XML 标签。马上我就意识到,这显然是我 见过的最“大”的数据。我永远都忘不了当屏幕里被跟踪球员从一节到 一场比赛的跟踪数据跳跃在我眼前的时候我有多惊讶。我有几千个这样 的文件,我想我需要找点帮助。 我找到了卢克-伯恩,一个年轻的空间统计学教授,我告诉了他我的窘 境。卢克建议我们在学校里面组建一个研究小组,利用这些数据来建立 项目。这个小组很快就吸引了 4 个研究数据统计和计算机的博士生。到 了 2013 年初的时候,每个学生都建立了不同的项目。我们把这些项目 称为“XY Hoops”。 丹-瑟沃尼和艾利克斯-德阿莫尔是我们最早的两个成员。这两个同学都 是 27 岁的四年博士生,在哈佛学习统计领域课程,他们都喜欢运动, 但他们更喜欢数据的编码。在看过这堆数据之后,我们很快进行了一些 头脑风暴,然后他们就加入了我们小组并提出了一个听起来革命性的, 几乎不可能的点子。 先行者的窘境 一般我们都追求最好的分析设备,但先驱者们往往不可避免一个问题, 那就是没有最好的分析设备。解释生命的度量标准只有一个,但你却找 不出一个能解释篮球的度量标准。在当代的运动数据分析界,你很难不 去非恰当的提升这个“大数据”的角色,但要使他们理想化传奇化却是 很冒险的。数据必须要简化为一种中介形式才能将球员的赛场表现和统 计分析联合起来,而运动分析则构建于庞大的编码解码机制之上,这一机制 的前提却是一个有缺陷的假设——“数据可以代表运动”。 但目前的现实情况却是——NBA 新任总裁亚当-

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档