录信数软+郑其华+-基于lucene实现万亿级多维检索与实时分析.pdfVIP

录信数软+郑其华+-基于lucene实现万亿级多维检索与实时分析.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene实现万亿级 多维检索与实时分析 南京录信数软 郑其华 个人简介 录信数软 技术总监 郑其华 • 10年以上软件开发经验 • 参与富士通CMGR、华为RTOS等项目开发 • 富士通中间件Lifecycle Management 和 Job Management 认证专家 • SACC2020 架构师大会受邀演讲嘉宾 目录 01 02 03 背景介绍 万亿规模的挑战和优 应用场景 化 存储挑战 大数据浪潮的来临 行业及场景 查询性能 多维统计 分布式计算 01 背景介绍 大数据时代 据IDC发布 《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB 增长到175ZB,2025年全球每天产生的数据量将达到491EB。 日益增长的数据规模和落后的处理能力之间的矛盾! Lambda架构 LSQL架构 02 万亿规模的挑战与优化 挑战一:万亿数据存储 存储成本 数据安全性 读写不均衡 •万亿规模怎么存 •数据误删无法恢复 •数据写入时,有的磁 •使用SSD还是SATA •数据迁移、扩容麻烦 盘忙,有的磁盘空闲 •磁盘型号是否一致 •磁盘损坏,数据丢失 •个别磁盘变慢,导致 所有查询都卡在该盘 •磁盘数量多导致维护 的IO上 成本上升 方案:基于HDFS的索引 •降低存储成本 ü 集群规模:支持成千上万节点,可存储海量数据 ü 异构存储:内存、SSD、SATA等综合使用,资源最优化 •解决读写不均衡问题 ü 磁盘容错:如果某些磁盘突然坏掉、或者速度变慢,自动切换到速度较快的 副本上读取 ü 自动均衡:自动balance,统一的命名空间,操作简单 •解决数据安全性问题 ü 数据快照:支持快照功能,1PB数据2秒钟创建快照,避免误删除操作 ü 冗余副本:降低磁盘损坏带来的影响 ü 快速分裂:专利技术,1P数据,10秒内分裂完毕 优化:列簇+异构存储 列簇存储 异构策略 列簇存储示意图 数 数 数 数 数 数 据 据 据 据 据 据 近一月数据 SSD固态硬盘 列 列 列 列 列 列

文档评论(0)

优选文档 + 关注
实名认证
文档贡献者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档