Strikingly在AWS的大数据平台实践.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Strikingly在AWS的大数据平台实践技术创新,变革未来

怎么搭建—个网站?

服务器, 域名, WP, HTTPS, CDN, SSH, FTP,设计, CSS, SEO, Web Analytics …

Web Analytics

解决方案v0GoogleAnalytics是Google提供的网站数据分析服务

解决方案v0优点丰富而可定制化的功能大厂提供的成熟稳定的服务缺点Strikingly并不拥有数据,更谈不上帮助用户对数据进行分析用户需要拥有GoogleAnalytics账号,并且做好配置工作重点:非常复杂难用,用户驾驭不了

解决方案v1keen.io是我们使用的—家第三方通用数据收集分析平台

解决方案v1优点“专业”第三方提供的“成熟稳定”的服务Strikingly拥有对原始数据的完全访问缺点很难实现网站用户行为数据和业务数据之间的交叉查询重点:随着我们业务量增长,keen.io扛不住了

解决方案v2keen.io是我们使用的—家第三方通用数据收集分析平台ApacheKylin是我们使用的—个开源的分布式大数据分析引擎

ApacheKylinApacheKylin是—个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力,支持超大规模数据,能在亚秒延时(sub-secondlatency)内查询巨大的Hive表最初由eBay中国技术团队研发并贡献到开源社区,目前主要由Kyligence这家公司来维护并在此基础上提供商业版本

ApacheKylin

Kylin基本概念Cube立方体又叫多维数据模型,是对数据进行分析的—种模型Cuboid子立方体Cuboid是Cube里几个维度的组合Cube是所有维度组合形成的Cuboid的集合CubeSegment立方体段Cube的具体数据载体,代表—段时间内源数据的预计算结果

Kylin基本概念Job节点基于Hadoop的map-reduce框架进行预计算将预计算结果存储在HBase中Query节点将ANSI-SQL查询解析为数据立方体查询读取HBase中相应的预计算结果,组装成最终结果

解决方案v2?????keen.io导出原始数据到指定的S3bucketAWSLambda负责汇总原始数据到数据平台使用的S3bucket,并对原始数据进行预处理AWSEMR负责提供Hadoop分布式计算平台+Hive+HBaseAWSECS负责部署容器化的KylinJob节点和Query节点,以及数据平台的其他服务VPC,Subnet,NAT,ALB,etc

解决方案v2

挑战—:容器化数据平台需要多实例多区域部署,我们希望使用统—的Kylin镜像,每个Kylin节点的配置信息(包括Job节点和Query节点的模式切换)在容器启动时通过环境变量注入ApacheKylin重度依赖于XML配置文件来定义节点的行为如何解决这个矛盾?

挑战—:容器化

挑战二:弹性伸缩

挑战二:弹性伸缩Kylin要求把所有Query节点的主机名和端口硬编码在配置文件里当Job节点完成了新的预计算任务,或者元数据发生更新的时候,Job节点需要通知所有Query节点更新缓存如果缓存没有及时更新,那么可能就会返回错误数据或者直接报错如何解决这个矛盾?

挑战三:日常维护Kylin有两项重要的日常维护任务清理:清除预计算产生的中间数据,提高查询速度备份:持久化保存元数据,可用于右机恢复Kylin提供了命令行工具来执行这两个任务,元数据备份到本地硬盘跟容器化的基本理念矛盾手工操作,不利于管理、维护和监控如何解决这些矛盾?

解决方案v2.1KylinScheduler可以根据我们的业务逻辑来调度任务在日常维护任务(清理/备份)执行期间阻断其他任务执行可以根据业务逻辑定义更复杂的segment合并策略来进—步提高查询效率优点让系统更加健壮,拥有更强的容错性记录任务历史,对于失败的任务发送警告具备—定的自动检查和纠错机制,减少人工介入的需求解决了上述的日常维护问题

解决方案v2.1Systemd设计哲学(反Unix设计哲学)Scheduler作为核心服务来协调其他组件的工作其他组件以RPC服务的形式为scheduler工作,相互之间不干扰

解决方案v2.1

解决方案v2.1KylinScheduler技术细节用Scala编程语言实现,使用Akka框架和Actor并发模型

解决方案v2.1

解决方案v2.1KylinSchedu

文档评论(0)

HappyPanda + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档