- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息平臺和数据科学家的兴起
信息平台和数据科学家的兴起
——Facebook工程师的一手工程实践
图书馆和大脑
在我17岁的时候,我丢掉了在印第安纳州杂货铺的出纳员的工作,在我上大学前仅两个月里,我看到了没有工作带来的机遇。我没有告诉父母自己被解雇了。每天下午,我仍然穿着出纳员的工作服离开家:黑色裤子、黑色皮鞋、白色衬衫,还有罩衫。在父母看来,我这身穿着是为严谨的账单审查工作准备,实际上,我是要在公共图书馆看书10个小时。
所有好奇心强的人都想知道大脑是如何工作的,17岁的我更是超乎寻常的好奇。我在图书馆,里学习大脑如何工作、休息和重建。除了使我们保持平衡、调整体温、不时地眨眨眼,大脑还摄取、处理和生成大量的信息。我们对周围的环境产生无意识的条件反射,养成短期口头禅和肢体特征,做出择偶和教育的长期计划。大脑令人感兴趣的不仅仅是它对感官数据做出反应的能力,而是作为信息库,生成计划和创建新的信息。我很想知道它是如何工作的。
然而,大脑的特点是其存储的信息只在一个人身上。为了从很多大脑收集信息,我们建造了图书馆。为了今后利用,图书馆科学领域已经为图书馆的信息存储发展了众多的技术。关于该课题的一个有趣的读本是Alex Wright的《Glut》。除了今后检索存储信息,图书馆在创建新信息方面也起了重大作用。正如哲学家Daniel Dennett所说的:“学者是以图书馆的方式创建另一个图书馆”。
图书馆和大脑信息平台的两个例子。它们组织进行摄取、处理和生成信息的场所,它们加速了从经验数据中学习的过程。当我在2006年加入FaceBook时,很自然地开始构建了一个信息平台。因为FaceBook用户数据剧增,我们团队构建系统最终需要管理超过PB的数据。在本章中,我将详细阐述在构建FaceBook信息平台遇到挑战,以及在开源软件上构建解决方案过程中汲取的教训。我还会概述在利用信息构建数据密集型产品和服务,并且帮助企业制定、实现目标过程中,数据科学家所起到的重大作用。在整个过程中,我还会描述一些其他企业在过去几十年如何构建信息平台来处理这些问题的。
在介绍开始前,首先要指出的是我去图书馆而不是去杂货店的计划还是很快泡汤了。自在读了几天书后,某天晚上我从图书馆出来时,却找不到车子了。对我来说,在那时丢车很平常,但停车场是空的,所以我知道出事了;最后是母亲发现我的伎俩,把我的车拖走了。在走回家的漫长路上,我在心里学会了一课:应该带着怀疑的态度来考虑自己的策略,另外,不要和母亲斗智。
Facebook具有自知之明
在2005年9月,Facebook首次向非大学生开放,允许高中生注册账号。忠实的用户愤怒了,但Facebook团队认为这是网站做出正常的方向。那么它该如何证明它是正确的呢?
此外,几乎所有可登录Facebook网站的学校中,Facebook已经渗入学生当中,但还是在有部分学校中,该网站一直不受青睐。和那些更成功的网站相比,这些落后的网络对于Facebook有什么区别呢? Facebook团队该如何做才能激励他们成功?
当我在2006年2月参加Facebook面试时,他们正在积极地期望找到这些问题的答案。我曾经在大学学习数学,在华尔街工作近一年,工作内容是构建模型来预测利率、价格复杂的衍生品和对冲抵押贷款池;有一定的编程经验,GPA成绩“暗淡”。虽然我的背景可能不太理想,但是Facebook却给了我研究科学家的职位。
几乎同时,Facebook聘用一个报告分析主管。该主管在解决问题方面的经验远远超过我。我们和另一个工程师一起,开始着手构建一个数据收集和存储平台,以便找到我们产品上的问题。
我们第一个尝试是构建一个离线信息库,其中涉及两个方面:一是用Python脚本把查询发到Facebook的MYSQL服务器层,二是采用C++实现守护进程,实时地处理事件日志。当脚本可以如期运行,我们每天收集大约10G的数据。我后来明白系统的这部分通常称为ETL过程,即抽取、转换和加载。
Python脚本和C++守护进程从Facebook的数据源系统中抽取数据,然后这些数据又被加载到MYSQL数据库用于离线查询。我们在包含这些数据的MYSQL上又运行了一些脚本和查询,对数据进行聚集,以便得到更有用的表现方式。这种用于决策支持的离线数据库即数据仓库。
最后通过简单的PHP脚本把数据从离线的MYSQL数据库中抽取出来,向内部用户展示收集到信息摘要。这是我们第一次可以回答网站特性对用户行为的影响。早期通过以下几种渠道分析最大分增长:登出用户的默认页面的布局、邀请来源、EMAIL联系方式导入器设计。除以上分析,我们开始通过历史数据开发简单的产品,包括对赞助商成品特性进行聚集的内部项目。实践证明,该项目很受品牌广告商的欢迎。
我那时没有意识到,实际上,通过ETL框架、数据仓库和内部控制台
您可能关注的文档
- 企業财务风险形成成因与防范措施su.doc
- 企業财务多主体博弈分析.doc
- 企業财务风险防范论文.doc
- 企業资本结构调整的契机与方法研究.docx
- 企業质量管理奖惩制度.doc
- 企業资源发展策划复习资料word2003版.doc
- 企業部门和职称中英文对照.doc
- 企業间的竞争实质上就是人力资源的竞争.doc
- 企業领导者的基本素质.doc
- 企業风险管理和审计.doc
- CNAS-CL63-2017 司法鉴定-法庭科学机构能力认可准则在声像资料鉴定领域的应用说明.docx
- 12J7-3 河北《内装修-吊顶》.docx
- 12N2 河北省12系列建筑标准设计图集 燃气(油)供热锅炉房工程.docx
- 内蒙古 12S8 排水工程 DBJ03-22-2014.docx
- 山西省 12S10 12系列建筑标准设计 管道支架、吊架.docx
- 16J601-木门窗标准图集.docx
- 12J8 河北省12系列《 楼梯》.docx
- CNAS-GL37 2015 校准和测量能力(CMC)表示指南.docx
- CNAS-RL02-2016 能力验证规则.docx
- 津02SJ601 PVC塑料门窗标准.docx
文档评论(0)