流水线介绍-Read.ppt

下载文档 降价啦

11
0
约1.52千字
约 53页
2017-02-16 发布于天津
举报
版权申诉
保障服务

流水线介绍-Read.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

流水线介绍-Read

BIT/TI 第二讲流水线介绍第二讲流水线介绍学习内容描述C62xx流水线操作定义：取指包、执行包、延迟间隙观察串联、部分串联和并行代码流过流水线情况比较VeiociTI和标准VLIW 题目一、为什么使用流水线？二、C62xx流水线各级介绍三、取指包四、代码通过流水线的过程举例五、串行、部分并行和完全并行代码通过流水线的过程举例六、VelociTI与标准VLIW 一、为什么使用流水线？非流水与流水的CPU 二、C62xx流水线各级介绍流水线基本级描述程序取指（PF-级）程序取指（PF）分为4个节拍： PG：程序地址产生 PS：程序地址发送 PW：程序访问等待 PR：程序接收译码（D—级）译码分成2个节拍： DP：确定指令到功能单元路线（指令分配） DC：指令在功能单元译码 C62xx指令类型和执行周期 C62xx所有指令仅需要1个周期执行，但有些指令的结果被延迟。执行（E—级）取指令（LD）执行节拍虽然取指令只需一个周期执行操作（E1），但结果延迟4个周期 C62xx总流水线节拍 E2-E6结果延迟节拍三、取指包取指包 C62xx系统方框图 256-bit片内程序数据总线四、代码通过流水线过程举例点积代码程序取指开始程序取指结束指令分配指令译码执行（E1） MVK完成，LD→E1 指令类型和延迟间隙（delay slots）第二个LD进入E1 MPY到达E1 ADD到达E1 MPY /ADD指令完成使ADD延迟执行 ADD进入E1 NOP与延迟间隙添加NOP 使用多周期NOP 代码性能五、串行、部分并行和完全并行代码通过流水线的过程举例串行代码串行执行部分并行代码部分并行执行部分并行执行（第一执行包进入DC）部分并行执行（第一执行包进入E1）部分并行执行（第二执行包进入E1）完全并行代码完全并行执行完全并行执行记住： B：5个延迟间隙 LD：4个延迟间隙 MPY：1个延迟间隙六、VelociTI与标准VLIW VelociTI与标准VLIW VelociTI（定义）定义: 取指包：8个32-bit指令 VLIW：甚长指令字（256-bit） EP：执行包指令：32-bit操作码 VelociTI：TI的VLIW结构 VelociTI与标准VLIW比较 VelociTI 可减小代码尺寸达到8：1 较少的程序取指较少的功耗较低的存储器成本 VelociTI的EP/FP编排执行包不能超出取指包边界汇编器在编排执行包时，对于不够8条指令的取指包，用NOP填充。总结 C62xx流水线操作取指包、执行包、延迟间隙串行、部分并行和完全并行代码通过流水线 VelociTI结构内核循环：第一个 LD 1 第二个 LD 5 MPY 2 ADD/ SUB 2 B 6 总周期数： 16*40=640+2=642 优化后 * * * * * *