如何打造100亿SDK累计覆盖量的大数据系统.docxVIP

下载本文档

0
0
约2.91千字
约 6页
2019-07-01 发布于广东
举报
版权申诉

如何打造100亿SDK累计覆盖量的大数据系统.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

如何打造100亿SDK累计覆盖量的大数据系统作为推送行业领导者，截止目前个推SDK累计安装覆盖量达100亿（含海外）,接入应用超过43万，独立终端覆盖超过10亿（含海外）。个推系统每天会产生大量的日志和数据, 面I缶许多数据处理方面的挑战。首先数据存储方面,个推每天产生10TB以上的数据,并且累积数据已在PB级别。其次，作为推送技术服务商，个推有很多来自客户和公司各部门的数据分析和统计需求，例如：消息推送和数据报表。虽然部分数据分析工作是离线模式，但开源数据处理系统稳定性并不很高，保障数据分析服务的高可用性也是一个挑战。另外，推送业务并不是单纯的消息下发, 它需帮助客户通过数据分析把合适的内容在合适的场景送达给合适的人，这要求系统支持数据挖掘,并保证数据实时性。最后,个推要求快速响应数据分析需求。因此,个推大数据系统面临着数据存储、日志传输、日志分析处理、大量任务调度和管理、数据分析处理服务高可用、海量多维度报表和快速响应分析和取数需求等方面的挑战。大数据系统演进之路面临诸多挑战,个推大数据系统在逐步发展中不断完善。其发展可分为三个阶段。一是统计报表，即传统意义的BI ;二是大数据系统的基础建设阶段；三是工具、服务和产品化。 1 j 统计报董 ?T 犬詼1居星础逢w 工貝似努+产品 k J L J 201452? 2014-2015^ 2016^ 个推大数据系统演进第_阶段:统计报表计算早期由于数据处理无太复杂的需求，个推选择几台高性能的机器，把所有数据分别放在这些机器上计算。只需在机器上多进程运行PHP或Shell脚本即可完成处理和统计。数据处理更多关注客户今天推送多少条消息,某个推送彳王务有多少回执等，执行相对较简单的报表。此阶段个推大数据系统的特点是，只需运维定时脚本传输到指定中间节点；用户虽然有亿级别但日志种类较单一；只需使用PHP、Shell脚本来运行和数据只需短期保存（结果集长期保存、中间数据和原始数据保存很短时间）。个推大数据系统演进第二阶段:大数据基础建设,离线批处理系统 2014年个推推出智能推送解决方案。用户体量大的明星App接入，系统覆盖用户数爆增。且客户接入个推系统后，提出了很多新的需求如：报表统计维度更丰富,它要求在数据量翻倍的情况下进行更复杂的计算，计算压力增大。其次，智能推送本质是数据深度挖掘，数据保存周期越长，覆盖维度越多越好。这样的情况下，个推引进Hadoop生态体系,用HDFS基本解决存储的问题，使用Hive 做数据仓库和离线分析，并且使用Mahout做机器学习。个推完成了由单机或多机模式向集群方向的转变。整个运转流程和原来类似，差别在于将日志传输到中转节点之后，使用hdfs 命令put数据到hdfs ,并添加hive表分区，然后对日志做进一步的处理，导入到数据仓储里去。最后个舸寸数据仓库中数据进行挖掘，给用户打标签，入库到HBase和线上ES等。这是离线批处理系统的基本建设。个推大数据系统演逬第二阶段:大数据基础建设,实时处理系统随着业务不断发展，需求也相应增加。如很多统计分析任务提岀了要求在T+0的时间内满足，或者客户上午推送的消息，下午要求给到反映推送效果的数据报表，而不能等到T+1 的时间，这些需求都对数据处理实时性提出了更高要求。而且很多客户会提出要检索一些数据，或查看某种标签相关数据，这类取数需要快速响应。于是个推对原有的架构进行了一些调整，引入了一个主要包含离线处理、实时处理和数据服务（包含检索）的架构模式。日斡HBaseSpark Streami ngKtysql ClusterHDFST彎日斡 HBase Spark Streami ng Ktysql Cluster HDFS T 彎从上方看，原有的数据存到HDFS ,使用Spark , MR等进行离线批处理。弓I入Kafka来解决日志收集问题，用Flume收集各个业务节点的日志,并写入到Kafka集群，再依照业务的分级进行小时级别和秒级别处理。最终个推会落地一份数据，将它同步给业务线的DB或 ES中使用。基础建设阶段个推完成几项工作：采用Lambda架构(Batch Layer、Speed Layer、 ServingLayer);引入 Hadoop ( Hdfs、Hive/MRX Hbase、Mahout 等)；采用 ES、 SolrCloud+ HBase方案实现多维度检索；引入Flume、Kafka、Camus和优化改造日志传输和引入和优化国产开源的Redis集群方案?Codis。个推大数据系统演逬第三阶段:工具化+服务化+产品化 zHadOOpHRHDFSHiveCamusSpark Streaming? zPecy qAzkaban