ARM攒机指南-汽车芯片.docVIP

下载本文档

2
0
约1.8万字
约 41页
2021-09-18 发布于浙江
举报
版权申诉

ARM攒机指南-汽车芯片.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ARM攒机指南-汽车芯片记得两年前，在中国找不出几家做前装汽车芯片的公司。而两年后的今天，突然如雨后春笋般的涌现出十多家，其范围涵盖了辅助驾驶，中控，仪表盘，T-Box，网关，车身控制，电池管理，硬件加解密，激光雷达，毫米波雷达，图像传感器和图像信号处理器等，八仙过海各显神通。全球范围内，汽车芯片一年销售额大致是$400亿，其中数字芯片$100亿：信息娱乐（中控）芯片约$25亿，均价在$25；MCU约$60亿，30亿片，均价$2；辅助驾驶约$17亿。全球一年大约卖一亿辆车，每辆车平均$100的数字芯片。其中辅助驾驶芯片处于快速增长阶段。汽车芯片的主要供应商，恩智浦，瑞萨数字部分较多，英飞凌，德州仪器模拟部分较多。汽车芯片是仅存的几个利润还不错的市场，技术门槛也并非不可逾越，更不存在绝对的生态闭环。只是量没有消费电子那么大，一年出个几百万片就不错了。在这个领域里，新造车势力方兴未艾，传统造车势力追求差异化，又赶上5G，自动驾驶与人工智能的热点，于是汽车芯片成了继虚拟现实，矿机，NB-IOT，人工智能之后新的投资方向。上图是一个典型的汽车电子系统框架。这个系统分为几个域，车身，动力总成，底盘，信息娱乐，辅助驾驶，网关和T-Box。每个域有着各自的域控制器，通过车载以太网和Can总线互联。我们就以架构上最复杂的中控和辅助驾驶芯片为例，展开探讨其设计思路与方法。新一代的中控芯片的架构如下图，主要由处理器，图形处理器，多媒体，图像处理，安全（Security）管理，功能安全（Safety），片上调试和总线等子系统构成。它和通常的应用处理器区别主要在于虚拟化，功能安全，实时性和车规级电气标准。先说虚拟化。虚拟化其实是从服务器来的概念，为什么汽车也会有这个需求？两点原因：现在的中控芯片有一个趋势，集成仪表盘，降低成本。以前的仪表盘通常是用微控制器做的，图形界面也较简单。而现在的系统越来越炫，甚至需要图形处理器来参与。很自然的，这就使得中控和仪表盘合到单颗芯片内。它们跑的是不同的操作系统，虚拟化能更好的实现软件隔离。当然，有些厂商认为虚拟化还不够，需要靠物理隔离才放心，这是后话，稍后展开。另一个趋势是中控本身需要同时支持多个屏幕，每个屏幕分属于不同的虚拟机和操作系统，这样能简化软件设计，提高软件的可靠性。虚拟化在硬件上有什么具体要求？这并没有明确定义。可以依靠处理器自带的二阶内存管理单元（s2MMU），实现软件虚拟机；也可以在内存控制器前放一个硬件防火墙MPU，对访问内存的地址进行检查和过滤，不做地址重映射；还可以使用系统内存管理单元SMMU实现完整的硬件虚拟化，这是我们要重点介绍的。 ? 如上图黄色框所示，每个主设备和总线之间，都加了一个SMMU600。为什么每个主设备后都要加？很简单，如果不加，那必然存在安全漏洞，和软件虚拟化无异。那为何不用MPU？MPU的的实现方法，通常是用一个片上内存来存放过滤表项。如果做到4K字节的颗粒度，那4G字节内存就需要1百万项，每项8位，总共1MB的片上内存，这是个不小的成本。另外一个原因是，MPU方案的物理地址空间对软件是不透明的，采用SMMU对上层软件透明，更贴近虚拟化的需求。当处理器发起一次地址虚实转换请求，MMU会在内部的TLB缓存和Table Walk缓存查找最终页表项和中间表项。如果在内部缓存没找到，那就需要去系统缓存或者内存读取。在最差情况下，每一阶的4层中间表可能都是未命中，4x4+4=20，最终会需要20次内存读取。对于SMMU，情况可能更糟。如上图所示，由于SMMU本身还需引入多级描述符来映射多个页表，最极端情况需要36次的访存才能找到最终页表项。如果所有访问都是这个延迟，显然无法接受。 Arm传统的设计是添加足够大的多级TLB缓存和Table Walk缓存，效果如下：这是启用2阶地址映射后的实测结果，其各项缓存大小均配置成较大，然后把两个主设备连到接口，进行地址较为随机的访问。可以看到，主设备的5万次访问，在经过SMMU后，产生了近5万次未命中。这意味着访问的平均延迟等于访存延迟，150ns以上。另一方面，处理器开了虚拟机后，它的随机访存效率，和未开虚拟机比，却能做到80%以上，这是为什么呢？答案很简单，处理器内部的MMU，会把中间页表的物理地址继续发到二级或者三级缓存，利用缓存来减少平均延迟。而SMMU就没有这么幸运，在Arm先前的手机处理器参考设计中，并没有系统缓存。这种情况下，即使对于延迟不太敏感的主设备，比如图形处理器，打开虚拟化也会造成性能损失，可能高达9%，这不是一个小数目。怎么解决这个问题？在Arm服务器以及下一代手机芯片参考设计中，会引入网状结构总线，而不是之前的交叉线结构的一致性总线。网状结构总线的好处，主要是提升了频率和带宽，并且，在提供多核一致性