微店的大数据平台建设实践与探讨.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
微店的大数据平台建设实践与探讨[日期:2015-09-22]来源:CSDN程序员杂志 作者:王锋[字体:大?javascript:ContentSize(0)中?javascript:ContentSize(12)小] “人类正从IT时代走向DT时代”,2014年三月在北京举行的一场大数据产业推介会上,阿里巴巴集团创始人马云在主题演讲中发表了他的这一观点。这个观念提法很快就被广泛传播开来,并被人们所接受。这里笔者不准备大谈DT时代,但是相信DT时代一定是以数据处理为核心的,因此大数据技术在这里有至关重要的地位,很有幸笔者及各位看官正在这个领域努力。 曾看到一篇文章,里面有个观点,“DT时代的骨骼——大数据处理平台”,反映了大数据处理平台在互联网或者移动互联网公司的重要性。大数据处理平台其实包含了整个大数据处理过程,它承载了从数据采集、传输、存储、分析挖掘(离线 OR、实时 OR、即席查询)、可视化、价值体现的整体流程。这些在大的互联网公司,尤其以BAT为首,已经逐步成熟,而且价值体现不断放大。而在初创公司或者具有一定规模的创业公司,大数据处理平台的基础设施或开始搭建,或处于较初始的状态,或者在逐步规范中。可能有人会有另外的想法:我们公司规模没有那么大,有必要整这么一套么?是的,如果数据量很小,每天新增数据(比如应用日志)都是MB级别,或者GB级别,而以后也不会有爆发式增长,也没必要太折腾。无论如何,有一个趋势非常明确,随着公司业务发展,数据量的爆发式增长,大数据处理平台的建设势在必行。 大数据处理平台建设是对数据采集、数据传输、存储、分析挖掘(离线 OR 实时 OR 即席查询)、数据展现、价值体现的整体流程梳理。微店是目前全球领先的移动电商网络(在微店生态体系,公司旗下还有口袋购物、微店全球购、微店买家版、今日半价、YouShop等5大优势平台),创造了一个便利的手机购物环境,是全球年轻人喜爱的移动购物网络。目前有超过3000万的店主使用微店销售商品,在这样的背景下,技术部门开发部署的各种应用每天需要服务巨量日志数据,这些数据既包含用户的行为特征、兴趣爱好,也包含了应用的服务质量情况,这些都是要进行深度分析发掘的数据,重要性不言而喻。基于此,负责大数据基础设施建设的我们承担起了大数据处理平台的建设任务,为业务分析部门提供公共基础支撑。接下来,本文将重点描述大数据处理平台中数据采集、传输、存储、分析过程中的公共基础技术部分。 什么是数据集 随着业务的爆发式增长,公司部署了各种各样的应用服务,新的服务也不断被开发出来。日志数据由应用服务产生,应用服务由业务开发人员开发,由业务运维人员部署维护;分析挖掘这些数据的是数据分析人员、推荐算法开发人员等等,在实际工作过程中,由于各方关注角度不同,带来很多不必要的沟通交流成本。数据集(DATASET)正是为了在数据采集、传输、存储、分析过程中,数据关联各方对目标数据有统一的称谓、同时规范数据的使用。 图1显示了数据集的一些重要属性,原则上由业务开发部门申请创建新的数据集,申请者作为数据的owner,同时标识出其所属产品线、项目、数据类型,拟采用的数据收集方式、存储方式,数据规模情况预估以及要存储的时间。其中数据类型包含www日志(access log)、应用日志、错误日志、MySQL日志等等;数据收集包括:Agent实时收集、Rsync传输、HdfsClient上传、API推送;存储方式分为:HDFS、分布式消息队列Kafka、实时数据搜索Elasticsearch、第三方存储;数据规模预估可以对要收集的数据规模进行评估,传输层及存储层是否可以承载的一个初步判断。存储时间确定该数据集保存时间,到期后由平台方对数据集统一清理。 在数据集创建后,由数据采集端采集,经由数据传输层进入数据存储层。在这个过程中,category是数据集的一个代名词。category最初是Facebook开源的scribe配置中一个很重要的属性,标识数据传输对象,这里我们沿用了这个单词,并从开始到存储落地全程被携带。 数据集的划分是很重要的一个过程,决定了数据如何传输、存储,并被如何分析处理。一般由业务部门及分析部门确定。数据集内数据格式应一致,方便进行处理。但在实际场景下,尤其创业公司,单个业务部门内数据格式也未必统一,数据散落在多个日志文件中,单个体积相对较小,而分析人员也会关注这些数据,这种情况下为了方便处理,可以将这些划分到一个数据集下,同时在采集端对数据进行标注。典型方法,如在实时采集时日志行中加入header,由文件名或者其他特征区分数据。就像万事万物有其生命规律一样,数据集也不例外。图2描述了数据集的生命周期。 数据采集层 某一天,一个分析人员兴冲冲过来,“某某某,我要分析xxx服务打出的日志,xxx服务

文档评论(0)

baobei + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档