不要太较真自动驾驶算力TOPS.docVIP

下载本文档

34
0
约4.68千字
约 7页
2021-09-18 发布于浙江
举报
版权申诉

不要太较真自动驾驶算力TOPS.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

不要太较真自动驾驶算力（TOPS）自动驾驶的TOPS竞赛有实际意义，但意义没有想象那么大，其中有很多误区，不好好识别容易导致不好的事情发生。 TOPS说的只是GPU算力首先算力和你使用的计算芯片有关系，如果你的算法大部分是标量计算，那这个值没有意义，当下我们所说的TOPS高算力实际都只是GPU的乘积累加矩阵运算算力。不同的芯片都通过总线和外界联系，有自己的缓存体系，以及数字和逻辑运算单元。CPU和GPU两者的区别在于片内的缓存体系和数字逻辑运算单元的结构差异。CPU虽然有多核，但总数没有超过两位数，每个核都有足够大的缓存和足够多的数字和逻辑运算单元，并辅助有很多加速分支判断甚至更复杂的逻辑判断的硬件;GPU的核数远超CPU，被称为众核(NVIDIA Fermi有512个核)。每个核拥有的缓存大小相对小，数字逻辑运算单元也少而简单(GPU初始时在浮点计算上一直弱于CPU)。从结果上导致CPU擅长处理具有复杂计算步骤和复杂数据依赖的计算任务，如分布式计算，数据压缩，人工智能，物理模拟，以及其他很多很多计算任务等。当程序员为CPU编写程序时，他们倾向于利用复杂的逻辑结构优化算法从而减少计算任务的运行时间，即Latency.当程序员为GPU编写程序时，则利用其处理海量数据的优势，通过提高总的数据吞吐量(Throughput)来掩盖Lantency。普遍意义上，CPU对应标量计算，主要是路径规划和决策算法，此外部分激光雷达使用ICP点云配准算法，CPU比GPU能更好对应。常用的传感器融合如卡尔曼滤波算法也多是标量运算。GPU对应矢量或者说向量计算，包括点云，地图，深度学习，核心是矩阵运算。我们可以将标量视为零阶张量，矢量视为一阶张量，那么矩阵就是二阶张量。目前TOPS的物理计算单位是积累加运算（英语：Multiply Accumulate, MAC）是在微处理器中的特殊运算。实现此运算操作的硬件电路单元，被称为“乘数累加器”。这种运算的操作，是将乘法的乘积结果b*c和累加器a的值相加，再存入累加器a的操作：若没有使用 MAC 指令，上述的程序可能需要二个指令，但 MAC 指令可以使用一个指令完成。而许多运算（例如卷积运算、点积运算、矩阵运算、数字滤波器运算、乃至多项式的求值运算）都可以分解为数个 MAC 指令，因此可以提高上述运算的效率。 MAC指令的输入及输出的数据类型可以是整数、定点数或是浮点数。若处理浮点数时，会有两次的数值修约（Rounding），这在很多典型的DSP上很常见。若一条MAC指令在处理浮点数时只有一次的数值修约，则这种指令称为“融合乘加运算”/“积和熔加运算”（fused multiply-add, FMA）或“熔合乘法累积运算”（fused multiply–accumulate, FMAC）。芯片运算精度的概念讨论理论算力前有几个基本概念，GPU计算常用的数据类型有三种FP32,FP16和INT8，三种的计算方式如下单精度浮点存储-FP32占用4个字节，共32位，其中1位为符号位(0为正，1为负)，8位指数位，23为有效数字。 IEEE 754规定，对于32位的浮点数，最高的1位是符号位s，接着的8位是指数E，剩下的23位为有效数字M 半精度浮点存储-FP16占用2个字节，共16位，其中1位为符号位(0为正，1为负)，5位指数位，10为尾数位。整数存储-INT8，八位整型占用1个字节，共8位，其中1位为符号位(0为正，1为负)，7为数据位整数的计算很好理解2的7次方构成（-128-127）的数字范围换算成10进制为从低位到高位开始计算 0 1 1 1 1 1 1 10*2^7 + 1*2^6 + 1*2^5 + 1*2^4 + 1*2^3 + 1*2^2 + 1*2^1 + 1*2^00 + 64 + 32 + 16 + 8 + 4 + 2 + 1= 127换算成10进制为从低位到高位开始计算 1 0 0 0 0 0 0 01*2^7 + 0*2^6 + 0*2^5 + 0*2^4 + 0*2^3 + 0*2^2 + 0*2^1 + 0*2^0=128 运行工况（运行频率）的概念 GPU和CPU都有工作频率，频率越高，性能越高；同时它的功耗和发热也越高。一般意义的超频就是更改运算频率来提高性能。Xavier（GPU）20W功耗下单精度浮点性能1.3TFLOPS，Tensor核心性能20TOPs，解锁到30W后可达30TOPs。为什么有每瓦TOPS一说，就是为了规避超频这个问题。另外，这里的功耗往往指的是单元芯片本身的功耗与算力比，没有考虑DRAM。在深度学习计算中，数据频繁存取，极端情况下，功耗可能不低于运算单元。实际运行频率和设定的工作频率也不一样，往往取决于温度与电压