采用标准实现设计WP-01173-2.0数字信号处理(DSP)单元等硬件体系结构相比,能够大幅度提高性能,同时降低.pdfVIP

  • 6
  • 0
  • 约9.81千字
  • 约 8页
  • 2017-06-12 发布于四川
  • 举报

采用标准实现设计WP-01173-2.0数字信号处理(DSP)单元等硬件体系结构相比,能够大幅度提高性能,同时降低.pdf

采用 OpenCL 标准实现 FPGA 设计 WP-01173-2.0 白皮书 在FPGA 上采用Khronos 集团的OpenCL ™标准,与目前的CPU、图形处理单元 (GPU)和 数字信号处理(DSP) 单元等硬件体系结构相比,能够大幅度提高性能,同时降低了功 耗。此外,与使用Verilog 或者VHDL 等底层硬件描述语言(HDL) 的传统FPGA 开发方 法相比,使用OpenCL 标准、基于FPGA 的混合系统(CPU + FPGA),具有显著的产品及 时面市优势。 引言 在可编程技术发展的最初阶段,可编程能力出现了两个极端。如图1 所示,一个极端 的代表是单核CPU 和数字信号处理(DSP) 单元。这些器件使用含有一系列可执行指令 的软件来进行编程。对于编程人员,在概念上以连续的方式来开发这些指令,而高级 处理器能够对指令重新排序,在运行时从这些连续程序中提取出指令级并行处理操作。 作为对比,可编程技术另一极端的代表是FPGA。通过开发可配置硬件电路对这些器件 编程,完全并行执行。使用FPGA 的设计人员实际上是开发粒度非常精细的并行应用。 多年以来,这两个极端同时存在,每一类型的可编程功能适用于不同的应用领域。但 是,最近的技术发展趋势表明,有更好的技术同时实现了可编程和并行处理操作。 图 1. 可编程技术的早期状况 随着对性能需求的增长,执行连续程序的软件可编程器件越来越需要依靠两种基本趋 势来提高其性能。第一种是随着工艺代的发展而调整工作频率。出于各种原因考虑, 不可能持续的降低工作电压,也不可能提高工作频率同时维持合理的功率密度。这一 现象被称为“ 功率墙”,对所有类型可编程器件的体系结构都会产生很大的影响。 软件可编程器件依靠的第二种趋势是复杂硬件的出现,从连续程序中提取出指令级并 行处理操作。如图2 所示,单核体系结构输入指令流,在器件中执行它们,这些器件 会有很多并行功能单元。处理器硬件的很大一部分必须专门用于从连续代码中动态提 取出并行处理操作。 此外,硬件还会尝试去补偿存储器延时。一般而言,编程人员开发程序时没有考虑处 理器的底层存储器结构,好像只有大规模的统一快速存储器。相比较而言,处理器必 须处理实际延时,以及与外部存储器的有限带宽链接。为保持功能单元能够传送数据, 处理器必须从外部存储器中预先获取数据,放入片内高速缓存中,这样,数据更接近 要进行计算的地方。使用这些技术,性能经过多年的提高后,这类体系结构的改动已 经不大了。 © 2012 Altera 公司。保留所有权利。 ALTERA、 ARRIA 、CYCLONE 、 HARDCOPY、 MAX 、 MEGACORE NIOS QUARTUS STRATIX Altera 、 、 以及 均在美国专利和商标事务所进行了注册,是 公司在美国 和其他国家的商标。所有其他商标或者服务标记的所有权属于其各自持有人, ISO 101 Innovation Drive /common/legal.html 对此进行了解释。Altera 保证当前规范下的半导体产品性能与 Altera 标准 9001:2008

文档评论(0)

1亿VIP精品文档

相关文档