唯品会双大促技术保障实践.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
唯品会双11大促技术保障实践 2021-12-26 每年双11是国内各大电商贴身肉搏,激烈交锋的时辰,同时也是把几十天的买卖量浓缩到一天释放的日子。为了预备双11的大促,各家都会在营销、促销、技术保障、物流、售后、客服等各个环节付出相当大的努力。唯品会作为中国第三大电商公司,自然也会在这场盛宴中付出本人的努力,收获应有的成果。 第一章:夯实基础,梳理业务 唯品会是一家专注于特卖闪购的电商公司。业务系统为了支撑特卖的场景,在业务架构上有一些鲜亮的特点:购物车库存扣减,特卖专场作为营销和流量的入口,优待活动设置在专场维度,营销触达的周期性峰值明显,自建物流系统支持分区售卖等。图1给出了整个业务架构的概览。 图1 唯品会业务架构示意图 随着业务量的快速增长,原有的PHP服务渐渐无法应对高并发大流量的网络恳求。为了支撑增长快速的业务,唯品会在过去2年中启动了大规模的重构。在服务Java化过程中,由基础架构部开发的OSP RPC框架,接受带Sidebar的Local Proxy + Zookeeper作为整个框架的核心组成部分,供应了去中心化的服务注册、发觉、管理的力量。 OSP框架还内嵌服务追踪机制,将服务调用路径抽样呈现,便于监控服务调用中发生的4xx/5xx错误,准时发觉拥塞、调用错误等情况。 图2 唯品会基础架构示意图 由于唯品会特卖的特点,特卖专场集中在早上10点和晚上8点推出,特卖模式下流量峰值变化极大。业务特点打算了弹性云平台对唯品会有极大价值。唯品会搭建的Noah云平台,在Kubernetes的基础上,开发了与现有生产系统流程集成的一系列组件。其中包括支撑运维自动化的Noah API Server, DevOps使用的管理平台Noah Portal,与S3存储系统类似的分布式镜像仓库,以及自主研发的网络方案、磁盘网络隔离方案。 为了应对双11的峰值,唯品会自创HPA的思想,开发了自动扩缩容功能。全部容器均自动跨机器跨机架部署,纯容器域在双机房部署并自动邻近路由,混合域(物理机+容器)则支持一键切换物理机和容器流量,以及一键跨机房迁移等功能。 2021年双11是Noah云平台经受的初次大促考验。共有52个业务域运转在云平台上,其中在5个核心域上云平台担当了30%-50%的流量。 图3 云平台Noah架构示意图 其次章:容量预估,适当扩容 唯品会历年大促峰值数据都会进行妥当的整理,核心业务系统依据不同促销等级,预估了不同的峰值流量。双11依据去年12.8店庆的2倍来估算系统峰值容量。以用户鉴权系统举例,单台服务器压力测试约为25000QPS,全域供应约25万QPS的服务力量,可以满足2倍峰值量,本次大促就无需扩容了。 对于一些需要扩容的服务,如类目服务、库存规章服务等,优先选择容器扩容。使用Noah云平台进行扩容后,广告、风控等系统的容器使用占比都达到了50%以上,起到了节省机器和弹性扩容的目的。 第三章:线上压测,心中有底 有了上述基础服务力量,线上压力测试就有了基本的技术储备。双11来临前,核心系统依据预估容量进行了线上压力测试。下面我们就以保藏系统作为例子,来呈现具体实践阅历。 保藏是唯品会会员应对特卖闪购模式的重要工具,保藏量的多少和保藏呈现分类的数量,直接打算了整个大促的销售成果,因而保藏系统的稳定至关重要。在双11到来之前,商品保藏和品牌保藏都进行了大面积改版,业务从前到后均做了比较大的改动,并在双11前1个月部署到生产环境。那么如何检验新版保藏系统能否可以顶住大促洪峰流量呢?下图呈现了保藏系统线上压力测试的系统部署图。 图4 双11大促保藏系统压测示意图 线上压测的具体步骤分为以下几项:Top 10接口筛选,线上回放脚本预备,nGinder压测集群搭建,压测目标确认。 找到保藏系统日常Top 10访问量的接口抓取线上日志(约占总流量的80%以上),生成线上回放脚本,依据去年店庆12.8峰值流量的2倍给出了压测目标值。线上压测支配在凌晨流量最低的时辰,在达到压测目标值的过程中,监控系统情况,看看系统有没有超时、特别,应用服务器的CPU、I/O、内存等资源消耗情况。在整个压测中,我们先后发觉了物理机和容器流量不均匀的问题,在若干接口恳求到达1w QPS时,消灭200ms超时等问题。最终通过调整权重以及分片数量等方法加以处理。 核心系统都通过类似的线上压测方法,发觉了大量潜在隐患,有力地保障了大促的顺当进行。 第四章:丢卒保车,降级求生 核心系统对于依靠系统都预备了降级和灾备方案。对于简约被黑产攻击的脆弱部位,以及非重要业务都做了降级处理。大促降级分为以下四个方面: 1. 系统设计层面需要考虑兼容依靠系统服务不行用的情况 “Design for Failure”是一个格外好的设计准绳,在系统设计中我们需

文档评论(0)

bob157641554 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档