第16期大数据专场2015合集诞生之旅.pptx

第16期大数据专场2015合集诞生之旅.pptx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据(Big data) 诞生之旅潘国伟化大 09级计算机MediaV 研发工程师拖延症、选择恐惧症患者。。。What did I do?收集数据为了给你打小广告大数据哪里大? · 大得无法用普通数据库工具管理 (TB以上,达到PB级别) · 数据涉及范围大,种类多,结构化数据 (现在还有哪个行业不说用大数据) · 处理速度快,实时处理可以在毫秒级响应 (麻麻再也不怕看球看直播还比别人延迟咯) · 每个人每个举动都为它提供数据 (你什么时候上厕所也可能被暴露,所以滴滴拉屎出现了)What?到底是谁把你的数据贡献出来了?!About数据采集第一方数据:在网站上部署监测代码、在APP上加监测sdk、运动手环等任何从Point主动发送数据的方式,是半结构化数据(我就是做这个事情的混蛋)第三方数据:网络爬虫啊、开放API、特定供给接口、购买数据(庞大的网络中继商、运营商数据)自建专有数据库:如我们美女CTO采集的几十亿cookie和兴趣库、标签库、IP库、跨屏映射库等First point:What is cookie?Can eat?存储在浏览器端的永久或暂时数据,给你打上各种标识Second point:LOG长啥样子?Third point:怎么做人群区分?通过cookie数据,利用人群分类模型,给每个人打上标签,例如:兴趣标签、地域标签、 个人属性标签、搜索关键词、 网络路径行为等最后来讲点枯燥打瞌睡的技术-->数据存取:Nosql,如mongodb-->基础架构:云存储,分布式,mapreduce-->数据处理:hadoop集群, spark-->数据仓库、 统计分析(BI):Hive、pig-->数据挖掘、机器学习、模型预测最后的最后:告诉大家一些秘密大数据的前提是根据摩尔定律,存储成本下降是基础然后是要有一个可用的系统,就算数据少也是最高效的然后就是想方设法弄数据了最后就可以尽情忽悠等赚钱啦! O(∩_∩)OThanks! Q & A潘国伟 pangw@

文档评论(0)

+ 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档