网站大量收购独家精品文档,联系QQ:2885784924

浮点表现方法.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浮点表现方法

浮点表示方式:基数β和精度p 假设β=10,p=3,则0.1:(f)-1.00 x 10-1 若β=2,(f)-1.1 x 2-4 浮点表示为+/-(d.dd…ddd x βe) d称为有效位,有p位数字。 +/-(d0 + d1β-1 + … + dp-1β-(p-1))βe,(0 ≤ di β) 浮点表示的其他两个参数是最大容限制幂指和最小容限制幂指,emax和emin。 由于有βp个有效位,并且有emax - emin + 1个可能幂指,浮点计算机编码如下形式: [log2(emax - emin + 1)] + [log2(βp)] + 1 对数的意思在于使用多少位二进制可以表示有效位,使用多少位二进制表示幂指,以及1bit位的正负符号。 浮点标准表示方式其前导有效位非零,即0.01x101和1.00x10-1的区别,后者是正常表达法。 这种方法无法表示0,因此采用最小幂指减1并乘基数最小值1,即:1.0 x βemin-1,这种方式基于非负实数的数字序列与浮点表示形式的字典序列一致(假定幂指存储于有效位的左边)。当幂指存放于k bit字段,则只有2k-1的值用于幂指,因为需要保留一位表示0。 相对误差和Ulps(P6) 既然取整误差是浮点运算的特性,那么测量这种误差的方法很重要。通常,假如浮点数d.d..d x βe表示z,则误差有|d.d..d – (z/βe)| βp-1个后续单元。 Plus:让z’成为z的近似值,|d.d..d – (z/βe)| βp-1相等|z’ - z|/ulp(z’)形式。 Ulps衡量两个数之间的差距。 另外一种测量浮点数与实数的方法叫相对误差,其计算方式为:浮点与实数之差除以实数,比如实数3.14159,浮点3.14x100的相对误差为:0.00159/3.14159 ≈ .0005。 为了计算.5ulp的相对误差,考虑一个实数尽可能被一个相当接近的浮点数表示:d.dd…dd x βe,则最大误差为0.00…00β’ x βe,β’为基数的一般,即:β/2,浮点数有p个单元的有效位,p个单元为0的有效位误差。 误差为((β/2)β-p)x βe。既然考虑.5ulp,那么((β/2)β-p)x βe是其正确表达式,即1 x βe和β x βe之间的值,相对误差: ((β/2)β-p)x βe/βe ((β/2)β-p)x βe/βe+1 1/2β-p ≤ 1/2ulp ≤β/2β-p 相对误差相对于.5ulp有一个β的变动因子。变动因子称为wobble——变度。 设置ε =((β/2)β-p)最大边界,当实数近似于最接近的浮点数,相对误差限定于ε,称为machine epsilon。相对误差采用ε的倍比。假如精度为3,基数为10,则ε=.005。 假设x=12.35,浮点表示为1.24x101,则误差为0.5ulps,相对误差0.8ε;8x=98.8,浮点为9.92x101,误差为4ulps,相对误差0.8ε。误差为8倍大小,而相对误差不改变。通常,当基数为β,固定的相对误差在ulps方式中有β范围的变度因子。 测量截断误差的自然方式是ulps,然而分析变化规则引起的截断误差,相对误差是比较好的方法,由于ε能通过变度预计最接近真实值的浮点效果,因此规则的误差估计在具有小beta的机器上联系较紧密。 当只关注截断误差的数量级,ulps和ε可以互换。 利用ulps进行计算只适用于标准表示法,因此0.2 – 0.17的误差是30ulps(即2.0 x 10^(-1) – 1.7 x 10^(-1))x 10^(3-1)。 定理1: 使用参数为β和p的浮点格式,使用p位计算差分,结果的相对误差为β-1。 假如x = 1.00…0 ,y = .pp…p,p=β-1。那么差分为:x – y =β(-p),如果使用p个电位进行计算,最右边电位y移出,则误差为x – y =β-p+1,,那么相对误差β-p - β-p+1 = β-p(β - 1),相对误差β-1。 定理2: 假如x和y是带有β和p浮点参数格式,假设减法采用p+1电子位,则相对误差小于2ε。 进行减法时,操作数最有效位彼此合并和舍弃,有两种类型的舍弃:恶性舍弃和良性舍弃。 恶性舍弃出现于操作数进行截断误差。良性舍弃是两个确切操作值相减,操作数没有经过截断处理。 对于有错误的表达式(1+i/n)^n,可以修改为e^(nln(1+i/n)),如果x很小,则可使用ln(1+x)~x的近似计算公式。 IEEE 854允许b = 10; IEEE 745 总结5类异常:上溢、下溢、除零、非法(invalid)NaN,不确切值(inexact) [1] No invalid exception is rais

文档评论(0)

f8r9t5c + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档