浮点表现方法.doc

下载文档

2
0
约 4页
2017-05-25 发布于河南
举报
版权申诉
保障服务

浮点表现方法.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

浮点表现方法

浮点表示方式：基数β和精度p 假设β=10，p=3，则0.1：（f）-1.00 x 10-1 若β=2，（f）-1.1 x 2-4 浮点表示为+/-（d.dd…ddd x βe） d称为有效位，有p位数字。 +/-（d0 + d1β-1 + … + dp-1β-(p-1)）βe，（0 ≤ di β）浮点表示的其他两个参数是最大容限制幂指和最小容限制幂指，emax和emin。由于有βp个有效位，并且有emax - emin + 1个可能幂指，浮点计算机编码如下形式： [log2（emax - emin + 1）] + [log2（βp）] + 1 对数的意思在于使用多少位二进制可以表示有效位，使用多少位二进制表示幂指，以及1bit位的正负符号。浮点标准表示方式其前导有效位非零，即0.01x101和1.00x10-1的区别，后者是正常表达法。这种方法无法表示0，因此采用最小幂指减1并乘基数最小值1，即：1.0 x βemin-1，这种方式基于非负实数的数字序列与浮点表示形式的字典序列一致（假定幂指存储于有效位的左边）。当幂指存放于k bit字段，则只有2k-1的值用于幂指，因为需要保留一位表示0。相对误差和Ulps（P6）既然取整误差是浮点运算的特性，那么测量这种误差的方法很重要。通常，假如浮点数d.d..d x βe表示z，则误差有|d.d..d – (z/βe)| βp-1个后续单元。 Plus：让z’成为z的近似值，|d.d..d – (z/βe)| βp-1相等|z’ - z|/ulp(z’)形式。 Ulps衡量两个数之间的差距。另外一种测量浮点数与实数的方法叫相对误差，其计算方式为：浮点与实数之差除以实数，比如实数3.14159，浮点3.14x100的相对误差为：0.00159/3.14159 ≈ .0005。为了计算.5ulp的相对误差，考虑一个实数尽可能被一个相当接近的浮点数表示：d.dd…dd x βe，则最大误差为0.00…00β’ x βe，β’为基数的一般，即：β/2，浮点数有p个单元的有效位，p个单元为0的有效位误差。误差为（（β/2）β-p）x βe。既然考虑.5ulp，那么（（β/2）β-p）x βe是其正确表达式，即1 x βe和β x βe之间的值，相对误差：（（β/2）β-p）x βe/βe （（β/2）β-p）x βe/βe+1 1/2β-p ≤ 1/2ulp ≤β/2β-p 相对误差相对于.5ulp有一个β的变动因子。变动因子称为wobble——变度。设置ε =（（β/2）β-p）最大边界，当实数近似于最接近的浮点数，相对误差限定于ε，称为machine epsilon。相对误差采用ε的倍比。假如精度为3，基数为10，则ε=.005。假设x=12.35，浮点表示为1.24x101，则误差为0.5ulps，相对误差0.8ε；8x=98.8，浮点为9.92x101，误差为4ulps，相对误差0.8ε。误差为8倍大小，而相对误差不改变。通常，当基数为β，固定的相对误差在ulps方式中有β范围的变度因子。测量截断误差的自然方式是ulps，然而分析变化规则引起的截断误差，相对误差是比较好的方法，由于ε能通过变度预计最接近真实值的浮点效果，因此规则的误差估计在具有小beta的机器上联系较紧密。当只关注截断误差的数量级，ulps和ε可以互换。利用ulps进行计算只适用于标准表示法，因此0.2 – 0.17的误差是30ulps（即2.0 x 10^(-1) – 1.7 x 10^(-1)）x 10^(3-1)。定理1：使用参数为β和p的浮点格式，使用p位计算差分，结果的相对误差为β-1。假如x = 1.00…0 ，y = .pp…p，p=β-1。那么差分为：x – y =β(-p)，如果使用p个电位进行计算，最右边电位y移出，则误差为x – y =β-p+1，，那么相对误差β-p - β-p+1 = β-p(β - 1)，相对误差β-1。定理2：假如x和y是带有β和p浮点参数格式，假设减法采用p+1电子位，则相对误差小于2ε。进行减法时，操作数最有效位彼此合并和舍弃，有两种类型的舍弃：恶性舍弃和良性舍弃。恶性舍弃出现于操作数进行截断误差。良性舍弃是两个确切操作值相减，操作数没有经过截断处理。对于有错误的表达式(1+i/n)^n，可以修改为e^(nln(1+i/n))，如果x很小，则可使用ln(1+x)~x的近似计算公式。 IEEE 854允许b = 10； IEEE 745 总结5类异常:上溢、下溢、除零、非法（invalid）NaN，不确切值(inexact) [1] No invalid exception is rais