大数据存储和计算.pdf

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
唯品会大数据平台 大数据存储和 邮箱: eric.shan@ 计算资源管理 微信: shanchaoeric 唯品会大数据平台规划 CRM VDBank VDProcess VDEngine Spark DNN 唯品会大数据平台现状 大数据管理工作范畴 ❖ 业务系统 ❖数据质量 ❖调度系统 ❖ 开发流程 ❖ ETL ❖运维流程 ❖数据模型 ❖数据审计和安全 ❖元数据/主数据管理 ❖ 资源管理 “数据平台使用申请” ❖用户提交: ❖管理员处理: ❖资源类型 ❖hdfs分配: ❖hdfs存储/hive数据库/hive计算资源 /mr计算资源„ ❖path/name quota/space quota ❖资源数目 ❖hive分配: 数据库/授权 ❖ 100T存储/1T内存/1000颗CPU„ ❖yarn分配: ❖访问方式 ❖ 队列最小资源/最大资源/weight ❖hive/presto/spark/webhdfs„ 理想很丰满,现实很骨 感 理想 现实 ❖系统强大 ❖模型变更迅速,开发周期短 ❖数据规范 ❖用户能力参差不齐 ❖流程规范 ❖大量的历史包袱 ❖技术成熟 ❖大量的技术包袱 ❖业务成熟 ❖平台不稳定,掌控力差 ❖分层不明确 各种问题 ❖这个任务昨天还好好的,为什么今天跑不出来了? ❖2-10倍的数据量,能撑得住吗? ❖怎么几千个任务都慢了? ❖最近磁盘使用急剧增加,谁在用? ❖这个表好像不用了,我能删除掉吗? ❖集群要扩容吗?扩多少? 核心:资源管控 ❖分田到户 ❖目的: ❖从乱序到有序 ❖申请和分配有据可查 ❖规则公开透明 ❖数据公开透明 ❖有多少资源,干多少事 ❖合理的KPI和惩罚机制 ❖ROI,资源倾斜给回报率 高的项目 资源有什么? 为什么存储和计算需要关注? ❖ Scale Up Scale Out ❖ Namenode - 存储(2亿blocks/2亿files) ❖ standby namenode updateCountForQuota缓慢影响主从一致性,进而影响切换( HDFS-6763) ❖ standby checkpoint缓慢导致增量blockreport汇报被skip, 影响主从一致性,进而 影响切换(HDFS-7097) ❖ standby checkpoint GC导致transfer Fsimage超时失败 ❖ 集

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档