- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Mali GPU编程特性及二维浮点矩阵运算并行优化详解
Mali GPU编程特性及二维浮点矩阵运算并行优化详解
基于Mali-T604嵌入式GPU的二维浮点矩阵运算并行优化
ARM Cortex-A15系列处理器是当前最新的嵌入式ARM SoC,该系列处理器首次集成了Mali-T600系列的移动端GPU,该系列GPU支持OpenGL以及OpenCL等计算框架,可以有效加速通用计算,而目前对其应用方法和实际优化效果的研究很少。本文基于以三星的Exynos5250处理器为核心的Arndale Board嵌入式开发平台,对集成于处理器上的Mali-T604嵌入式GPU的GPGPU(General-Purpose computaTIon on GPU)技术进行研究并对不同运算规模的浮点矩阵乘法进行并行加速优化,提供实际测试结果。
GPGPU技术早年主要在超级计算机平台进行高性能计算,而近年该技术逐渐被引入嵌入式领域。但在过去的移动GPU平台上没有专门针对通用计算的软件框架和编程接口,软件设计者难以对于数据的同步和计算的并行进行控制,所以移动GPU在通用计算领域一直难以应用。本文基于Exynos5250 SoC平台详述Mali GPU的硬件特性和将其应用于通用计算的编程的方法,最后将二维浮点矩阵乘法并行化作为优化实例,验证Mali GPU的并行能力,为计划使用嵌入式GPU的GPGPU技术进行优化工作的研究人员和应用开发者提供技术参考和借鉴。
1.Mali T604 GPU的硬件结构和编程特性
Mali是由ARM研发设计的移动显示芯片组(GPUs)系列,不仅能够在移动端提供强大的图像渲染能力,同时在近期对通用计算进行了良好的软硬件支支持。
1.1 Mali T604 GPU的组成结构
Mali-T604是Mali系列中首款使用统一渲染架构Midgard的移动GPU,Mali-T604 GPU包含4个着色器核心,采用AMBA 4 ACE-LITE总线接口,该总线以Cache Coherent Interconnect技术为特色,在多个处理器之间提供完全Cache一致性,通过ARM的一致性和互连技术,计算任务在异构系统中进行共享处理时,可以轻松跨越CPU、GPU和其他可用计算资源,更高效地访问数据。图1展示了Mali-T604 GPU的基本框架。如图2所示,Cortex-A15 CPU核心以及Mali GPU核心物理上共享了片外的RAM存储器并保持了L2Cache的一致性。
图1 Mali-T604基本硬件框图
图2 Exynos5250处理器框图
Mali-T604 GPU在硬件层面优化了对任务管理和事件依赖的处理,并将这部分功能完全集成在其硬件的任务管理单元之中,可将计算任务从CPU卸载到GPU,并在活动的着色器核心之间实现无缝负载平衡。
1.2 Mali GPU的并行化线程结构特征
Mali GPU进行通用计算的技术核心是以多核多线程的思想将密集的计算任务进行拆解,将大量的计算线程分配于众多计算核心中,GPU可以同时处理成百上千的线程,大量晶体管用于ALU.GPU适合做高密度数据的并行运算,只有在运算的并行粒度足够大的时候才能发挥出强大的并行运算能力。图3展示了CPU和 Mali GPU之间工作调配的过程。
图3 Cortex-A15 CPU和Mali GPU之间的工作调配
Mali GPU中每个计算线程会占用着色器核心的一部分资源(存储器和ALU等),每个线程占用资源的多少影响了同时并行处理的活动线程的数量。对Mali GPU,每一个线程都有自己的程序计数器,这意味着Mali GPU和桌面GPU平台不同,程序分支的发散不是一个影响效率的重要的问题。每个Mali-T604 GPU的着色器核心最多可以同时容纳256个线程,Mali GPU在进行通用计算时需要大量的线程进行切换才能保证得到计算效率上的收益,对于Mali-T604而言,这个最少的总工作项数量是4096.如果分配于单个着色器核心上的线程数目不足128,很可能带来并行效率的下降,这时需要拆分工作为不同的步骤,简化每个步骤的线程复杂度,让单个着色器核心并行容纳的线程数量足够多以保证并行度。
2.Mali GPU的并行化计算模型构建
Mali-T600系列的GPU对OpenCL 1.1 Full Profile标准进行了良好的支持,OpenCL是真正意义上的跨平台异构并行框架,能够真正挖掘出Mali GPU的并行计算特性。
2.1 Mali GPU在OpenCL框架下的并行任务抽象及线程规划
OpenCL是一个由编程语言规范,应用程序接口、库函数和运行时系统组成的跨平台异构并行计算框架,Mali-T604 GPU在OpenCL下的抽象层次
您可能关注的文档
- iPhoneX 天线采用的LCP究竟是一种怎样的材料呢?.doc
- iPhoneX不再是神机,合资车也不再是神车,中国品牌杀过来了!.doc
- iPhoneX的创新或推动这些半导体厂走向“芯”巅峰.doc
- iphone十周年纪念-6月29日值得你记住的日子 把互联网装进口袋.doc
- iPhone十一年的进化,每一款都是工巧匠精心雕琢的视觉盛宴.doc
- iphoneX面部识别的五个使用技巧及注意事项.doc
- iPhone引发的思考 大屏给手机带来了什么?.doc
- iPhone参与医学研究:口袋里的科技,让医学走得更远.doc
- iPhone手机内存不够用-如何清理-.doc
- iPhone手机收取过路费价格大超 Android !苹果表示很冤枉.doc
- Manz亚智科技亚洲区销售副总裁:深耕自动化与激光应用市场.doc
- manta 7x拆解,看看这款主打智慧边框的手机内部如何.doc
- Manz亚智科技宣布与顶尖自动分析管理装置制造商EIKO技术战略合作.doc
- Markdown写作工具推荐Typora.doc
- MarS Board- 你不知道的ARM DIY 计算机平台.doc
- Marvell智能家庭视点:OTT内容在家庭网络的传输和互动.doc
- Mason公式的运用详细的讲解.doc
- MassGrid希望改进POW算法和区块链网络,来对人类社会产生实际价值.doc
- max-q游戏本跑分评测 重新定义游戏本.doc
- MAX32660及评估板MAX32660 EVK主要特性.doc
最近下载
- 大作业:如何理解“作风建设永远在路上,永远没有休止符”?我们应如何加强作风建设?.docx VIP
- 教师实习心得:教育反思与教师实习心得:有效的教学离不开有效的反思合集.doc VIP
- 《中华人民共和国基本医疗卫生与健康促进法》全文.pdf VIP
- 代数式的值-新浙教版-七上数学.pptx VIP
- 浙教版初中数学八年级上册第二章《特殊三角形》单元测试卷(含答案解析)(困难).docx VIP
- 浙教版初中数学八年级上册第二章《特殊三角形》单元测试卷(含答案解析)(标准困难).docx VIP
- 村两委换届调研报告大全一.doc VIP
- 2024-2030年中国面食行业市场深度分析及前景趋势与投资研究报告.docx
- 《护士条例》落实情况监督检查表.docx VIP
- 中国宠物行业2025年宠物医疗市场发展趋势与挑战分析报告.docx
文档评论(0)