- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
唯品会大数据平台
大数据存储和 邮箱:
eric.shan@
计算资源管理 微信: shanchaoeric
唯品会大数据平台规划
CRM
VDBank VDProcess VDEngine
Spark DNN
唯品会大数据平台现状
大数据管理工作范畴
❖ 业务系统 ❖数据质量
❖调度系统 ❖ 开发流程
❖ ETL ❖运维流程
❖数据模型 ❖数据审计和安全
❖元数据/主数据管理 ❖ 资源管理
“数据平台使用申请”
❖用户提交:
❖管理员处理:
❖资源类型
❖hdfs分配:
❖hdfs存储/hive数据库/hive计算资源
/mr计算资源„ ❖path/name quota/space quota
❖资源数目 ❖hive分配: 数据库/授权
❖ 100T存储/1T内存/1000颗CPU„ ❖yarn分配:
❖访问方式 ❖ 队列最小资源/最大资源/weight
❖hive/presto/spark/webhdfs„
理想很丰满,现实很骨
感
理想 现实
❖系统强大 ❖模型变更迅速,开发周期短
❖数据规范 ❖用户能力参差不齐
❖流程规范 ❖大量的历史包袱
❖技术成熟 ❖大量的技术包袱
❖业务成熟 ❖平台不稳定,掌控力差
❖分层不明确
各种问题
❖这个任务昨天还好好的,为什么今天跑不出来了?
❖2-10倍的数据量,能撑得住吗?
❖怎么几千个任务都慢了?
❖最近磁盘使用急剧增加,谁在用?
❖这个表好像不用了,我能删除掉吗?
❖集群要扩容吗?扩多少?
核心:资源管控
❖分田到户
❖目的:
❖从乱序到有序
❖申请和分配有据可查
❖规则公开透明
❖数据公开透明
❖有多少资源,干多少事
❖合理的KPI和惩罚机制
❖ROI,资源倾斜给回报率
高的项目
资源有什么?
为什么存储和计算需要关注?
❖ Scale Up Scale Out
❖ Namenode - 存储(2亿blocks/2亿files)
❖ standby namenode updateCountForQuota缓慢影响主从一致性,进而影响切换(
HDFS-6763)
❖ standby checkpoint缓慢导致增量blockreport汇报被skip, 影响主从一致性,进而
影响切换(HDFS-7097)
❖ standby checkpoint GC导致transfer Fsimage超时失败
❖ 集
您可能关注的文档
- HBase大数据平台介绍.pdf
- HDFS分布式文件系统介绍.pdf
- Hive大数据平台介绍.pdf
- MongoDB在58同城的应用实践.pdf
- 百度分布式Redis平台介绍.pdf
- 大数据Impala二次开发.pdf
- 大数据Impala架构原理.pdf
- 大数据Kafka架构原理.pdf
- 大数据MapReduce和YARN二次开发.pdf
- 大数据Oozie架构原理.pdf
- 检验类之临床医学检验技术(师)通关练习题包括详细解答.docx
- 2022-2023年一级建造师之一建港口与航道工程实务练习题提供答案解析.docx
- 2023年执业药师之中药学专业一考前冲刺练习试题和答案.docx
- 投资项目管理师之投资建设项目组织综合提升模拟考试试卷.docx
- 机械员之机械员专业管理实务通关试卷和答案.docx
- 施工员之装修施工基础知识综合提升模拟考试试卷包含答案.docx
- 2022-2023年二级建造师之二建机电工程实务综合提升测试卷含答案讲解.docx
- 施工员之装饰施工专业管理实务综合提升练习题提供答案解析.docx
- 2023年教师资格之小学教育学教育心理学通关检测卷含答案讲解.docx
- 环境影响评价工程师之环评技术方法考前冲刺测试卷包括详细解答.docx
文档评论(0)