京东大数据技术平台调研论述.docx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
京东大数据平台调研 1 背景及意义 我国已将大数据发展确定为国家战略,强调要瞄准世界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统。大数据产业在国内发展得如火如荼,据统计,到 2022 年将突破万亿元。大数据技术已经在如电子商务、政务、民生、金融、工业、医疗等多个领域中广泛应用。 大数据正在从单纯的技术概念向实际部署应用转变;从少数领域向众多领域渗透;从企业内部向各产业与公共服务方向扩展。目前,无论国内还是国外, 大数据技术都在经历前所未有的快速演变,以满足各种应用的需求。 从国内的大数据技术和行业应用发展来看,大数据技术的基础架构技术已日趋成熟,大数据领域由技术创新驱动转向应用创新驱动的趋势开始显现,但更多的传统企业在如何建设大数据平台,如何利用大数据来驱动企业业务发展上仍然缺乏经验,这在一定程度上制约了大数据技术的大规模产业应用。 京东作为一家业内领先的互联网科技公司,完整的产业链条带来了价值可沽的海量大数据,丰富的业务场景也为技术发展提供了最佳创新土壤。从认知、探索到今天京东技术上的百花齐放,京东经历了最为艰苦的创新和付出。业务的复杂与多元化,数据的飞速增长,但也使得大数据平台拥有更强大的能力,形成了一套完整的技术体系和有效的数据管理方法,并在实践中得以验证和夯实。 京东拥有全渠道零售和端到端的高质量大数据,包含了用户的浏览和消费行为、商品制造和销售、物流仓储配送以及客服与售后等丰富完整的信息。同时,京东业务中包含有大量丰富的大数据应用场景,是大数据实践的最佳场所。早在 2010 年,京东集团就启动了大数据领域的研发和应用探索工作,经过八年来的持续投入,京东大数据平台无论从规模、技术先进性,还是体系的完整性等方面均已达到国内一流水平。作为支撑公司数据运营的重要阵地,目前已拥有集群规模 40000+服务器,数据规模达800PB+,每日的 JOB 数 100 万+,业务表 900 万+,每日的离线数据日处理量 30PB+,单集群规模达到 7000+台,实时计算每天消费的数据记录近万亿条。 京东大数据平台建设了完整的技术体系,包括离线计算、实时计算和机器学习平台,可以满足多种复杂应用场景的计算任务。元数据管理、数据质量管理、任务调度、数据开发工具、流程中心等构成了全面的数据运营工具。分析师、指南针等数据应用产品提供了便利的数据分析功能,以及敏感数据保护、数据权限控 制等策略方案,能够最大程度地保护数据资产的安全。 京东大数据在驱动企业业务增长,提升运营效率,为客户提供个性化、高品质产品及服务上发挥了重要作用。利用大数据分析和挖掘,京东打造了个性化商城,自主研发了智能门店解决方案,打造了智能供应链体系,提高了物流配送的效率,实现了知人、知货、知场景的购物体验。京东大数据的应用已渗透到了业务的各个环节。 大数据平台的发展是随着京东业务同步发展的,由原来的传统数据仓库模式逐步演变为基于Hadoop的分布式计算架构,如图1所示。技术领域覆盖Hadoop、Kubernetes、Spark、Hive、Alluxio、Presto、Hbase、Storm、Flink、Kafka 等大数据全生态体系。目前拥有研发团队500+人,累计获得技术专利400+个。 图1.1 京东大数据发展历程 2 京东大数据的技术体系 京东大数据平台构建了完整的技术体系,通过一系列的技术方法实现了更可靠、高可用、具有京东自身特色的平台环境。如图2.1所示,平台覆盖Hadoop、Kubernetes、Spark、Hive、Alluxio、Presto、Hbase、Storm、Flink、Kafka 等技术全栈,满足各类应用场景对数据平台的要求。 图2.1 京东大数据平台系统架构 2.1 数据采集和预处理 数据采集是大数据的基石。京东包含了电商所涉及的营销、交易、仓储、配送、售后等环节,每个环节都会产生大量的业务数据,同时线上的业务日志系统和消息系统也会产生海量的数据。为了将上述结构化和非结构化数据进行采集,以便后续被数据应用类系统所使用,京东搭建了一套标准化的数据采集系统—数据直通车。 数据直通车为京东线上数据接入京东数据仓库提供了一套完整解决方案,为后续的查询、分发、计算和分析提供数据基础。直通车提供丰富多样、简单易用的数据采集功能,可满足离线计算、实时计算、集成分发等多种需求,并进行全程状态监控。 根据不同业务场景对于数据时效性的不同要求,直通车支持离线数据采集和实时数据采集两种数据采集方式。 离线数据采集主要支持的数据类型为:MySQL、SQL Server、 Oracle、MongoDB、HBase、ElasticSearch、离线文件;实时数据采集主要支持的数据类型为:MySQL、日志、HTTP API、JMQ

文档评论(0)

新起点 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档