一场清华大数据讲座实战应用案例干货.docxVIP

一场清华大数据讲座实战应用案例干货.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 一场清华大数据讲座实战应用案例干货 2016秋季学期首场清华大数据“应用·创新”系列讲座,在清华大学FIT楼多功能厅顺当进行。本场讲座邀请到了国双联合创始人、国双副总裁黄勇坚,通过实战应用案例对Lambda架构进行了全方位解读。 9月13日晚,由数据科学研究院主办,国双科技、清华大数据产业联合会承办的2016秋季学期首场清华大数据“应用·创新”系列讲座,在清华大学FIT楼多功能厅顺当进行。本场讲座邀请到了国双联合创始人、国双副总裁黄勇坚,通过实战应用案例对Lambda架构进行了全方位解读。 演讲时长两个多小时,全场满满干货,虽然当天也做了线上视频直播,但依旧有许多没有到场的大数据爱好者对此表示很遗憾,同样身为一名数据粉的小编不忍心让大家遗憾,为了让大家快速GET这场演讲的内容,小编特地捞出干货供大家交流学习。 Google、微信之后是什么时代? 回顾整个IT技术发展历程,它始终是以促使人类办事更加简单,生活更加便利为发展趋势的。 上个世纪40年月以来,依据冯·诺依曼架构、图灵理论而造出了计算机。初心其实是为了打仗,计算原子弹路径千万别跑偏,当时需要浩大的人工的计算量,但二战期间人力有限。IBM的神话由此诞生。 随着时代的发展,除了计算,人们还产生了办公、消遣等诉求。于是计算机逐步个人化、微型化。那个年月成就了微软、英特尔这样的巨头。 后来进入互联网时代,Google这样转变世界的企业应运而生,紧随其后的还有微信这样的移动互联网神器。如今,当计算世界进入到“大数据”时代,又会出现什么样的传奇呢? 为什么说近十年才是“大数据”的时代?当年比尔·盖茨靠Windows起家莫非就没人提“大数据”吗?十年前,当我们想去一个地方却不知道路怎么走的状况下,还会依靠纸质地图。如今可以直接用百度、高德地图随时导航。十几年前并非没有“数据”,也不是没有需求,而是在整个业态里面,没人有能力收集起来这些数据,“大数据”又从何谈起呢? 中国大数据的两条腿 实质上,大数据技术是以解决业务问题为导向的。国双科技这家公司的文化也是一样以客户为中心,利用“大数据”帮助客户去解决业务问题,同时发觉新的问题,以此也可以驱使技术进步。 中国的技术市场比较偏应用,各种基于大数据的应用满天飞,但是做底层做框架的公司并不多。另一方面,由于中国互联网用户数量浩大,大数据的应用又在不断产生新的数据。 为了能够用好这么海量的数据,中国的大数据行业需要两方面的人才,第一类是业务人才,第二类是技术人才。首先,“大数据”需要解决业务问题,业务专家必不可少。其次,相关专业的技术人才所做的的研究也不可或缺。因此“大数据”这个领域将会是一个特别宽广的就业市场。 大数据解决四类问题 “全部的技术的发展是为了解决业务问题,解决人们的衣食住行等生活问题,使人类社会变得更加美好”。用抽象的方式做个归类的话,基本可以归为四大类: 【描述性分析】:发生了什么? 【诊断性分析】:事情发生后,分析为什么会发生? 【预估性分析】:把握规律,预估下一次什么时候发生? 【分析应用】:依据已经发生的事来解决实际问题,促进业务的发展。 奥运会上的大数据 在奥运会期间,全球数以亿计的观众会通过例如电视、PC,安卓等多个平台对比赛进行观看,这样就产生了跨区域、跨平台的海量数据。这时,国双通过技术帮助CNTV(中国网络电视台)进行“用户播放行为分析”。比如某个赛事在北京的收视率如何,各类终端占比是多少。 商用大数据的最低配置 类似奥运会的商用“大数据”系统有哪些必需满意的性能呢? 第一,高可用性。系统里的这些组件可能会随时挂掉一个,或者若干个,我们必需保证系统还要能正常的工作; 第二,可伸缩性。系统可以通过横向扩容去加机器,去解决数据量增大的问题。 第三,容错性。假如程序出了错误之后,要易于恢复; 第四,高性能。要做到实时且快速反应,不能半天才出来结果。 大数据领域的最基本问题与解决之道 回到上面提到的“在奥运期间,不同的终端,不同的地域,观众毕竟分别观看了多少次呢?”这个问题,从问题到答案我们可以看到“大数据”领域最基本的问题以及解决之道。 我们要解决业务问题,毕竟现在的在线人数有多少,终端比例是多少等这些问题的本质就是——查询,能把业务问题解决掉的实质也就是把查询这项功能做好。说起来“查询”二字似乎很简单,但是这“

文档评论(0)

137****2175 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档