前沿技术-云计算技术- HPCC平台数据检索任务的执行过程 (1).pptx

前沿技术-云计算技术- HPCC平台数据检索任务的执行过程 (1).pptx

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

前沿技术-云计算技术-HPCC平台数据检索任务的执行过程

本文档来自教材《云计算与大数据技术》人民邮电出版社王鹏黄焱安俊秀张逸琴编著版权说明2前沿技术-云计算技术-HPCC平台数据检索任务的执行过程

HPCC平台数据检索任务的执行过程HPCC的平台上的数据检索任务在Thor集群和Roxie集群上运行,执行过程包含导入原始数据、数据切分与分发、ETL处理、Roxie集群发布,如图所示。图HPCC数据检索任务的执行流程3前沿技术-云计算技术-HPCC平台数据检索任务的执行过程

HPCC平台数据检索任务的执行过程4前沿技术-云计算技术-HPCC平台数据检索任务的执行过程加载原始数据将存储在HPCC平台以外的待处理数据加载到Thor集群,存放位置为LandingZone,可在HPCC配置中进行查询。切分、分发待处理的数据这个操作对应于图中的Spray,Spray操作将LandingZone中的数据进行均匀切分,发送到Thor集群的计算节点。切分的时候根据文件的逻辑记录结构进行切分,保证逻辑记录的完整性,不被切分到多个节点上。

HPCC平台数据检索任务的执行过程5前沿技术-云计算技术-HPCC平台数据检索任务的执行过程

HPCC平台数据检索任务的执行过程对分发后的原始数据ETL是Thor集群的典型应用,包含Extract操作、Transform操作和Load操作。Extract操作包含源数据映射、数据清洗、数据分析统计等操作;Transform操作是对数据集的常规操作;Load操作的主要作用是为数据仓库或一些独立的查询平台建立索引,索引建立后会被加载到Roxie平台以支持在线查询。6前沿技术-云计算技术-HPCC平台数据检索任务的执行过程分发后原始数据的ETL处理

HPCC平台数据检索任务的执行过程7前沿技术-云计算技术-HPCC平台数据检索任务的执行过程当一个查询被部署到Roxie集群,相关的支撑数据、索引文件也被加载到Roxie分布式索引文件系统。在HPCC系统中,这个文件系统与Thor的DFS分布式文件系统是相互独立的。Roxie集群查询请求的负载均衡一般由外部负载均衡通信设备负责。Roxie集群的规模由查询需求及其响应时间要求,规模一般小于Thor集群。Roxie查询可以通过Web应用发起,每个Roxie查询需要部署一个ECL查询程序向Roxie集群发布

文档评论(0)

学海无涯苦做舟 + 关注
实名认证
内容提供者

职业教育

1亿VIP精品文档

相关文档