高速運算處理卡.docVIP

下载本文档

3
0
约 4页
2017-06-07 发布于天津
举报
版权申诉

高速運算處理卡.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高速運算處理卡

中央研究院統計科學研究所 GPU平行運算教育訓練近十年以來，GPU Graphic Processing Unit 的計算能力大幅成長，平均每六個月其性能就有加倍的成長，目前高性能GPU的計算能力已經可以達到Teraflops，遠高於主處理器 CPU 的計算能力。為了使GPU的運算能夠快速普及化，繪圖晶片供應商NVIDIA在2007年推出一免費的GPU程式開發工具CUDA Compute Unified Device Architecture ，使其客戶可以在GPGPU General Purpose GPU 上任意開發各類的高速科學運算。具有高度運算需求之科學領域包括：統計工程、Monte Carlo統計模擬、財務工程、全球氣候變遷模擬、影音3D多媒體、生物醫學、國防科學、石油探勘、土木建築、CAM、CAE、CAD、氣體煙霧模擬、火焰模擬、模流水流模擬等。可知半導體製程的快速進步使得GPU的計算能力跟著快速成長，並且隨著GPU程式開發工具CUDA及OpenCL的越趨成熟，更加速超高速運算新紀元時代的來臨。 CUDA程式是以C、C++ 或Fortran Programming Language為基礎，運用上層compiler轉譯實現GPU的通用計算，所提供的功能如下所述: 以GPU來執行具有multi-thread平行能力的C/C++ Programming Language 結合CUDA程式及C/C++ Programming Language，以單一程式整合CPU及GPU之平行運算 CUDA同時支援筆記型電腦內之GPU運算可與GPU中之hardware thread scheduler互動，提升multi-thread效能提供傅利葉 CUFFT 、線性代數 CUBLAS,CUSPARSE 、亂數產生 CURAND 等數值運算程式庫可與OpenGL、Direct3D9、Direct3D10同時使用支援Linux、Windows XP、Windows Vista、Windows 7、Mac等作業系統可與OpenMP、MPI等多元及叢集處理同時使用支援multi-GPU同時運作功能 CUDA官方網站：.tw/object/cuda_home_new_tw.html 本教育訓練課程的內容將從目前最流行的超高速GPU運算平台: CUDA C/C++ 開始介紹，搭配精彩的個案研究，使研究者可以在最短的時間內循序漸進的學會將GPU應用於個人的研究領域，加速研究成果的產出。最後，本課程將進一步探討OpenCL標準化平行語言的特色，以便前瞻平行處理語言的發展趨勢。時間 2011年10月12日星期三 2011年10月14日星期五 2011年10月19日星期三 2011年10月21日星期五每日上午9:00~12:00，下午13:0~17:30 中午不提供便當地點中研院統計所：http://goo.gl/2xrHn 內容 Section 1 10/12 Fermi GPU架構及計算能力簡介 CUDA SDK 4.0 安裝 Linux 平台成功的compile第一個程式學習device query 程式 Thread, thread block, grid, warp 等平行計算模式概念說明學習簡單的CUDA 平行程式撰寫 vector addition 學習調整資料量及thread block大小 2-D / 3-D matrix addition Section 2 10/12 Global, constant, shared 記憶體的階層概念及使用方法說明 matrix multiplication without shared memory matrix multiplication with shared memory 學習調整matrix, thread block及shared memory大小學習使用constant 記憶體及shared 記憶體應用GPU計時器及CPU計時器評估CUDA程式的效能在vector及matrix addition程式中加入計時器評估效能在matrix multiplication 程式中加入計時器評估效能 Section 3 10/12 真實的記憶體頻寬計算方法說明 host與device資料傳送記憶體頻寬計算在vector及matrix addition程式中加入記憶體頻寬計算在matrix multiplication 程式中加入記憶體頻寬計算學習使用locked pinned 記憶體進行資料傳輸 Section 4 10/12 Texture記憶體的使用方式介紹學習textur