cublas库中文简介.docVIP

下载本文档

20
0
约8.52千字
约 12页
2017-08-29 发布于重庆
举报
版权申诉

cublas库中文简介.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

cublas库中文简介

Cublas Library 简介 Cublas Library 就是在NVIDIA CUDA中实现Blas(基本线性代数子程序）。它允许用户访问NVIDIA中GPU（图形处理单元）的计算资源，但不能同时对多个GPU进行自动并行访问.在使用Cublas library时，应用程序必须在GPU内存空间中分配所需的矩阵向量空间，并将其填充数据，再顺序调用所需的Cublas函数，最后将计算结果从GPU内存空间上传到主机中。Cublas library 同时还提供了从GPU中书写和检索数据的功能。 1.1 数据布局对于现有的具有最大兼容性的Fortran环境，Cublas library使用column-major storage(列主序存储)和1-based indexing(以1开始索引)。由于C和C++使用row-major storage, 使得用这些语言编写的应用程序对于二维数组不能使用本地数组语义。相反，宏或内联函数应该被定义为实现以为数组矩阵。将Fortran代码机械的移植到C中，你可以选择保留1-based indexing 以避免转换循环。在这种情况下，矩阵中位于i行j列的数组元素可通过下面的宏计算：#define IDX2F(i,j,ld) ((((j)-1)*(ld))+((i)-1))。这里，ld代表矩阵的主要维度，而在列主序存储矩阵中代表行数。在本地写C或C++代码，我们喜欢用0-based indexing, 那么上述矩阵中元素可通过下面宏计算： #define IDX2C(i,j,ld) (((j)*(ld))+(i)) 1.2 新的和遗留的Cublas AP1(应用程序接口) 从第四版开始，Cublas Library提供了一个升级的API，另外还有已有的 legacy API. 这节讨论为什么要提供新的API，它有哪些优势，以及与原先的API 的区别。新的CUBLAS library API可以通过引用头文件“cublas_v2.h”而被使用。它包含以下legacy CUBLAS library API 所没有的特征。已经利用函数初始化了对Cublas Library 内容的处理并明确的传递给每个后续的库函数调用，这使得用户在使用多主机线程和多个GPU时能对库的设置有更多的控制。这也使得CUBLAS API成为可重入的。标量α和β可通过引用传递给主机或设备，替代原先只能通过主机数值进行传递。这种改变使得库函数在使用流时可以异步地并行执行，即使当α和β由前一个内核所产生。当库例程序返回一个标量结果时，它可通过主机或设备上的应用返回，代替只能通过主机上的数值返回。这种改变允许库例程序被称为异步的，当标量结果通过设备参数产生和返回导致最大的并行性。错误状态cublasStatus_t可通过所有Cublas Library 函数调用返回，这种变化促进了调试并简化了软化开发。cublasStatus重命名为cublasStatus_t使它更符合Cublas Library库中其他类型。 ? cublasAlloc()和cublasFree()函数已被弃用，此更改分别移除cudaMalloc() 和 cudaFree()中不必要的包装。 ?函数cublasSetKernelStream()被重命名为cublasSetStream()以便更符合CUDA libraries中其他内容。第二章使用Cublas AP1 2.1. Error status(错误状态）所有的CUBLAS library都通过cublasStatus_t返回错误状态。 2.2. CUBLAS context 所有应用程序必须通过调用cublasCreate()函数对Cublas Library 内容进行初始化处理，然后明确地传递给后面库函数调用，一旦应用程序结束了对库的使用，必须调用函数cublasDestory()以释放与Cublas库内容相关的资源。这种方式允许用户在使用多主机线程和多GPU 时可明确地掌握库的启动。例如，应用程序可使用cudaSetDevice()连接不同设备和不同的主机线程，其中的每一个主机线程初始化一个独特的处理，这可使一个独特的设备连接那个主机线程，然后cublas库函数调用不同处理去自动调度不同的计算到设备中。只有在假设相应的cublasCreate() 和cublasDestory()之间内容保持不变的情况下才能使设备与某个特定的CUBLAS内容相连。为了使CUBLAS库在同一主机线程中使用不同设备，应用程序必须通过cudaSetDevice()设置所需要使用的新设备然后创建另一个CUBLAS内容，通过调用cublasCreate()