- 0
- 0
- 约8.56千字
- 约 40页
- 2019-01-10 发布于未知
- 举报
基于Spark平台的GPU调度研究苏鹏飞ICT-HPCMapReduceDiskInputDiskOutputMapReduceMap 现有编程模型(MapReduce)是一种非循环数据流抽象模型,不适用于需要重复使用数据集的应用:迭代计算(机器学习)交互式数据挖掘工具(R , Excel, Python)分布式内存抽象支持数据延迟查询支持比Map和Reduce更多的函数提供交互式的Scala shell和Python shell保留MapReduce优点容错数据局部性可扩展性数据存储资源管理计算Spark client(app master/driver)Spark workerprogramRDD graphClustermanagerTask threadssc = new SparkContextf = sc.textFile(“…”)f.filter(…) .count()...SchedulerBlock trackerBlock managerShuffle trackerHDFS, HBase, …全称: Resilient Distributed Datasets容错的、只读的、分布式数据集允许用户指定数据的存储级别(内存/外设)提供丰富的并行操作ReduceCollectCount…操作类型变换(Transformation)不计算,仅返回新RDD行动(Action)进行计算,返回新值给driver程序一个例子:日志挖掘Cache 1Base RDDTransformed RDDlines = spark.textFile(“hdfs://...”)errors = lines.filter(_.startsWith(“ERROR”))messages = errors.map(_.split(‘\t’)(2))cachedMsgs = messages.cache()resultsWorkertasksBlock 1Cached RDDDriverParallel operationcachedMsgs.filter(_.contains(“foo”)).countCache 2cachedMsgs.filter(_.contains(“bar”)).count. . .对Wikipedia 全文搜索耗时1s (而对on-disk 数据的搜索耗时为20s)Cache 3WorkerBlock 2WorkerBlock 3好处?依赖关系划分窄依赖RDD的每个分区最多被Child RDD的一个分区使用宽依赖RDD的一个分区被Child RDD的多个分区使用存储级别Storage LevelMeaningMEMORY_ONLYStore RDD as deserialized Java objects in the JVM. If the RDD does not fit in memory, some partitions will not be cached and will be recomputed on the fly each time theyre needed. This is the default level.MEMORY_AND_DISKStore RDD as deserialized Java objects in the JVM. If the RDD does not fit in memory, store the partitions that dont fit on disk, and read them from there when theyre needed.MEMORY_ONLY_SERStore RDD as?serialized?Java objects (one byte array per partition). This is generally more space-efficient than deserialized objects, especially when using a?fast serializer, but more CPU-intensive to read.MEMORY_AND_DISK_SERSimilar to MEMORY_ONLY_SER, but spill partitions that dont fit in memory to disk instead of recomputing them on the fly each time theyre needed.DISK_ONLYStore the RDD partitions only on disk.MEMORY_ONLY_2, MEMORY_AND_DISK_2
您可能关注的文档
- 机电行业--互换性与技术测量 -公差与配合.ppt
- 机电行业--机器工序测量能力.ppt
- 机电行业--流体输送机械-泵.ppt
- 机电行业--起重机械安全技术.ppt
- 机动车检测实验室管理体系程序文件.doc
- 机读目录格式.ppt
- 机关综合办公室2006年工作总结及2007年工作重点.doc
- 机关综合办公室工作总结.doc
- 机器学习入门指南.ppt
- 机械采油培训.ppt
- 25-26学年政治(部编版)选择性必修第二册课件:第1单元 周清1 民法中的人身权及财产权.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:1.4.1 权利保障 于法有据.pptx
- 2025北京丰台区高二(上)期中地理(A卷)含答案.docx
- 2025北京三帆中学初三(上)开学考英语试题含答案.docx
- 2025北京一零一中初三9月月考语文试题含答案.docx
- 2025北京海淀区初三(上)期中道法试题含答案.docx
- 2025北京丰台区高一(上)期中政治(A卷)含答案.docx
- 25-26学年政治统编版必修4课件:3.3 唯物辩证法的实质与核心.pptx
- 25-26学年政治统编版必修4课件:7.2 正确认识中华传统文化.pptx
- 湖北省部分高中2026届高三上学期二模联考 历史试卷.docx
最近下载
- 上海市黄浦区2024-2025学年八年级上学期期末数学试卷(含答案).pdf VIP
- 69095419_A-Aquaeco直流变频水地源(热泵)机组安装操作维护手册20230310-A.pdf VIP
- 部编教材五年级下册语文教案(全册).pdf VIP
- 2022小班长年终总结范文(系列5篇).docx VIP
- 广东省深圳市宝安区2022-2023学年六年级上学期质量监测用卷科学期末试卷.docx VIP
- 做好应急保电预案(3篇).docx
- 哈工大计算机组成原理第六章课件唐朔飞老师.ppt VIP
- 人教版六年级上册语文期末考试卷绝对自己编的_有用的老师可以下载_免费.doc VIP
- 探秘坚果与干果中的隐匿威胁:真菌毒素污染及风险深度剖析.docx VIP
- 森林防火工程技术标准范文.docx VIP
原创力文档

文档评论(0)