当前位置：文档库 › 第7章DSP定点数和浮点数(重要)

第7章DSP定点数和浮点数(重要)

第7章D S P定点数和浮点数（重要）

本期教程主要跟大家讲解一下定点数和浮点数的基础知识，了解这些基础知识对于后面学习ARM官方的DSP库大有裨益。特别是初学的一定要理解这些基础知识。

7.1 定点数和浮点数概念

7.2 IEEE浮点数

7.3 定点数运算

7.4总结

7.1定点数和浮点数概念

如果小数点的位置事先已有约定，不再改变，此类数称为“定点数”。相比之下，如果小数点的位置可变，则称为“浮点数”（定点数的本质是小数，整数只是其表现形式）。

7.1.1定点数

常用的定点数有两种表示形式：如果小数点位置约定在最低数值位的后面，则该数只能是定点整数；如果小数点位置约定在最高数值位的前面，则该数只能是定点小数。

7.1.2浮点数

在计算机系统的发展过程中，曾经提出过多种方法表达实数。典型的比如相对于浮点数的定点数（Fixed Point Number）。在这种表达方式中，小数点固定的位于实数所有数字中间的某个位置。货币的表达就可以使用这种方式，比如 99.00 或者 00.99 可以用于表达具有四位精度（Precision），小数点后有两位的货币值。由于小数点位置固定，所以可以直接用四位数值来表达相应的数值。SQL 中的 NUMBER 数据类型就是利用定点数来定义的。还有一种提议的表达方式为有理数表达方式，即用两个整数的比值来表达实数。

定点数表达法的缺点在于其形式过于僵硬，固定的小数点位置决定了固定位数的整数部分和小数部分，不利于同时表达特别大的数或者特别小的数。最终，绝大多数现代的计算机系统采纳了所谓的浮点数表达方式。这种表达方式利用科学计数法来表达实数，即用一个尾数（Mantissa ），一个基数（Base），一个指数（Exponent）以及一个表示正负的符号来表达实数。比如 123.45 用十进制科学计数法可以表达为 1.2345 × 102，其中 1.2345 为尾数，10 为基数，2 为指数。浮点数利用指数达到了浮动小数点的效果，从而可以灵活地表达更大范围的实数。

提示: 尾数有时也称为有效数字（Significand）。尾数实际上是有效数字的非正式说法。

同样的数值可以有多种浮点数表达方式，比如上面例子中的 123.45 可以表达为 12.345 × 101，0.12345 × 103 或者 1.2345 × 102。因为这种多样性，有必要对其加以规范化以达到统一表达的目标。规范的（Normalized）浮点数表达方式具有如下形式：

±d.dd...d × βe, (0 ≤ d i < β)

其中 d.dd...d 即尾数，β 为基数，e 为指数。尾数中数字的个数称为精度，在本文中用 p 来表示。每个数字 d 介于 0 和基数之间，包括 0。小数点左侧的数字不为 0。

基于规范表达的浮点数对应的具体值可由下面的表达式计算而得：

±(d0 + d 1β-1+ ... + d p-1β-(p-1))βe, (0 ≤ d i < β)

对于十进制的浮点数，即基数 β 等于 10 的浮点数而言，上面的表达式非常容易理解，也很直白。计算机内部的数值表达是基于二进制的。从上面的表达式，我们可以知道，二进制数同样可以有小数点，也同样具有类似于十进制的表达方式。只是此时 β 等于 2，而每个数字 d 只能在 0 和 1 之间取值。比如二进制数 1001.101 相当于 1 × 23 + 0 × 22 + 0 × 21 + 1 × 20 + 1 × 2-1 + 0 × 2-2 + 1 × 2-3，对应于十进制的 9.625。其规范浮点数表达为 1.001101 × 23。

7.2I E E E浮点数

说明：Cortex-M4F中的FPU（浮点单元）就是用的这个IEEE 754标准，初学的要认真学习。

IEEE二进制浮点数算术标准（IEEE 754）是20世纪80年代以来最广泛使用的浮点数运算标准，为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式（包括负零-0）与反常值（denormal number）），一些特殊数值（无穷（Inf）与非数值（NaN）），以及这些数值的“浮点数运算符”；它也指明了四种数值舍入规则和五种例外状况（包括例外发生的时机与处理方式）。

IEEE 754规定了四种表示浮点数值的方式：单精确度（32位）、双精确度（64位）、延伸单精确度（43比特以上，很少使用）与延伸双精确度（79比特以上，通常以80比特实做）。只有32位模式有强制要求，其他都是选择性的。大部分编程语言都有提供IEEE浮点数格式与算术，但有些将其列为非必需的。例如，IEEE 754问世之前就有的C语言，现在有包括IEEE算术，但不算作强制要求（C语言的float通常是指IEEE单精确度，而double是指双精确度）。

该标准的全称为IEEE二进制浮点数算术标准（ANSI/IEEE Std 754-1985），又称IEC 60559:1989，微处理器系统的二进制浮点数算术（本来的编号是IEC 559:1989）。后来还有“与基数无关的浮点数”的“IEEE 854-1987标准”，有规定基数为2跟10的状况。现在最新标准是“IEEE 854-2008标准”。

在六、七十年代，各家计算机公司的各个型号的计算机，有着千差万别的浮点数表示，却没有一个业界通用的标准。这给数据交换、计算机协同工作造成了极大不便。IEEE的浮点数专业小组于七十年代末期开始酝酿浮点数的标准。在1980年，英特尔公司就推出了单片的8087浮点数协处理器，其浮点数表示法及定义的运算具有足够的合理性、先进性，被IEEE采用作为浮点数的标准，于1985年发布。而在此前，这一标准的内容已在八十年代初期被各计算机公司广泛采用，成了事实上的业界工业标准。

在 IEEE 标准中，浮点数是将特定长度的连续字节的所有二进制位分割为特定宽度的符号域，指数域和尾数域三个域，其中保存的值分别用于表示给定二进制浮点数中的符号，指数和尾数。这样，通过尾数和可以调节的指数（所以称为"浮点"）就可以表达给定的数值了。具体的格式参见下面的图例：IEEE单精度浮点数

符号Sign 指数Exponent 尾数Mantissa

1bit 8bit 38bit

IEEE双精度浮点数

符号Sign 指数Exponent 尾数Mantissa

1bit 11bit 52bit

●在上面的图例中，第一个域为符号域。其中 0 表示数值为正数，而 1 则表示负数。

●第二个域为指数域。其中单精度数为 8 位，双精度数为 11 位。以单精度数为例，8 位的指数为可

以表达 0 到 255 之间的 255 个指数值。但是，指数可以为正数，也可以为负数。

为了处理负指数的情况，实际的指数值按要求需要加上一个偏差（Bias）值作为保存在指数域中的值，单精度数的偏差值为 127，而双精度数的偏差值为 1023。比如，单精度的实际指数值 0 在指数域中将保存为 127；而保存在指数域中的 64 则表示实际的指数值 -63。偏差的引入使得对于单精度数，实际可以表达的指数值的范围就变成 -127 到 128 之间（包含两端）。我们不久还将看到，实际的指数值 -127（保存为全 0）以及 +128（保存为全 1）保留用作特殊值的处理。这样，实际可以表达的有效指数范围就在 -127 和 127 之间。在本文中，最小指数和最大指数分别用 emin 和 emax 来表达。

●图例中的第三个域为尾数域，其中单精度数为 23 位长，双精度数为 52 位长。除了我们将要讲到的

某些特殊值外，IEEE 标准要求浮点数必须是规范的。这意味着尾数的小数点左侧必须为 1，因此我们在保存尾数的时候，可以省略小数点前面这个 1，从而腾出一个二进制位来保存更多的尾数。这样我们实际上用 23 位长的尾数域表达了 24 位的尾数。比如：

对于单精度数而言，二进制的 1001.101（对应于十进制的 9.625）可以表达为 1.001101 × 23，所以实际保存在尾数域中的值为 0011 0100 0000 000 0000 0000，即去掉小数点左侧的 1，并用 0 在右侧补齐。

值得注意的是，对于单精度数，由于我们只有 24 位的指数（其中一位隐藏），所以可以表达的最大指数为 224 - 1 = 16,777,215。特别的，16,777,216 是偶数，所以我们可以通过将它除以 2 并相应地调整指数来保存这个数，这样 16,777,216 同样可以被精确的保存。相反，数值 16,777,217 则无法被精确的保存。由此，我们可以看到单精度的浮点数可以表达的十进制数值中，真正有效的数字不高于 8 位。事实上，对相对误差的数值分析结果显示有效的精度大约为 7.22 位。参考下面的示例：

true value stored value

--------------------------------------

16,777,215 1.6777215E7

16,777,216 1.6777216E7

16,777,217 1.6777216E7

16,777,218 1.6777218E7

16,777,219 1.677722E7

16,777,220 1.677722E7

16,777,221 1.677722E7

16,777,222 1.6777222E7

16,777,223 1.6777224E7

16,777,224 1.6777224E7

16,777,225 1.6777224E7

--------------------------------------

根据标准要求，无法精确保存的值必须向最接近的可保存的值进行舍入。这有点像我们熟悉的十进制的四舍五入，即不足一半则舍，一半以上（包括一半）则进。不过对于二进制浮点数而言，还多一条规矩，就是当需要舍入的值刚好是一半时，不是简单地进，而是在前后两个等距接近的可保存的值中，取其中最后一位有效数字为零者。从上面的示例中可以看出，奇数都被舍入为偶数，且有舍有进。我们可以将这种舍入误差理解为"半位"的误差。所以，为了避免 7.22 对很多人造成的困惑，有些文章经常以 7.5 位来说明单精度浮点数的精度问题。

提示: 这里采用的浮点数舍入规则有时被称为舍入到偶数（Round to Even）。相比简单地逢一半则进的舍入规则，舍入到偶数有助于从某些角度减小计算中产生的舍入误差累积问题。因此为 IEEE 标准所采用。

7.2.1规范化浮点数

通过前面的介绍，大家应该已经了解的浮点数的基本知识，这些知识对于一个不接触浮点数应用的人应该足够了。简单总结如下：

标准的浮点数都符都符合如下的公式：

其中bias是固定的数值，这个在前面的已经讲解过。参数的具体范围如下

7.2.2非规范化浮点数

我们来考察浮点数的一个特殊情况。选择两个绝对值极小的浮点数，以单精度的二进制浮点数为例，比如 1.001 × 2-125和 1.0001 ×2-125这两个数（分别对应于十进制的 2.6448623 × 10-38和 2.4979255 ×10-38）。显然，他们都是普通的浮点数（指数为 -125，大于允许的最小值 -126；尾数更没问题），按照 IEEE 754 可以分别保存为00000001000100000000000000000000（0x1100000）和 00000001000010000000000000000000（0x1080000）。

现在我们看看这两个浮点数的差值。不难得出，该差值为 0.0001 × 2-125，表达为规范浮点数则为 1.0 × 2-129。问题在于其指数大于允许的最小指数值，所以无法保存为规范浮点数。最终，只能近似为零（Flush to Zero）。这中特殊情况意味着下面本来十分可靠的代码也可能出现问题：

if (x != y)

{

z = 1 / (x -y);

}

正如我们精心选择的两个浮点数展现的问题一样，即使 x 不等于 y，x 和 y 的差值仍然可能绝对值过小，而近似为零，导致除以 0 的情况发生。

为了解决此类问题，IEEE 标准中引入了非规范（Denormalized）浮点数。规定当浮点数的指数为允许的最小指数值，即 emin 时，尾数不必是规范化的。比如上面例子中的差值可以表达为非规范的浮点数 0.001 × 2-126，其中指数 -126 等于 emin。注意，这里规定的是"不必"，这也就意味着"可以"。当浮点数实际的指数为 emin，且指数域也为 emin 时，该浮点数仍是规范的，也就是说，保存时隐含着一个隐藏的尾数位。为了保存非规范浮点数，IEEE 标准采用了类似处理特殊值零时所采用的办法，即用特殊的指数域值 emin - 1 加以标记，当然，此时的尾数域不能为零。这样，例子中的差值可以保存为 00000000000100000000000000000000（0x100000），没有隐含的尾数位。

有了非规范浮点数，去掉了隐含的尾数位的制约，可以保存绝对值更小的浮点数。而且，也由于不再受到隐含尾数域的制约，上述关于极小差值的问题也不存在了，因为所有可以保存的浮点数之间的差值同样可以保存。

7.2.3有符号的零

因为 IEEE 标准的浮点数格式中，小数点左侧的 1 是隐藏的，而零显然需要尾数必须是零。所以，零也就无法直接用这种格式表达而只能特殊处理。

实际上，零保存为尾数域为全为 0，指数域为 emin - 1 = -127，也就是说指数域也全为 0。考虑到符号域的作用，所以存在着两个零，即 +0 和 -0。不同于正负无穷之间是有序的，IEEE 标准规定正负零是相等的。

零有正负之分，的确非常容易让人困惑。这一点是基于数值分析的多种考虑，经利弊权衡后形成的结果。有符号的零可以避免运算中，特别是涉及无穷的运算中，符号信息的丢失。举例而言，如果零无符号，

则等式 1/(1/x) = x 当x = ±∞ 时不再成立。原因是如果零无符号，1 和正负无穷的比值为同一个零，然后 1 与 0 的比值为正无穷，符号没有了。解决这个问题，除非无穷也没有符号。但是无穷的符号表达了上溢发生在数轴的哪一侧，这个信息显然是不能不要的。零有符号也造成了其它问题，比如当 x=y 时，等式1/x = 1/y 在 x 和 y 分别为 +0 和 -0 时，两端分别为正无穷和负无穷而不再成立。当然，解决这个问题的另一个思路是和无穷一样，规定零也是有序的。但是，如果零是有序的，则即使 if (x==0) 这样简单的判断也由于 x 可能是 ±0 而变得不确定了。两害取其轻者，零还是无序的好。

7.2.4无穷

和 NaN 一样，特殊值无穷（Infinity）的指数部分同样为 emax + 1 = 128，不过无穷的尾数域必须为零。无穷用于表达计算中产生的上溢（Overflow）问题。比如两个极大的数相乘时，尽管两个操作数本身可以用保存为浮点数，但其结果可能大到无法保存为浮点数，而必须进行舍入。根据 IEEE 标准，此时不是将结果舍入为可以保存的最大的浮点数（因为这个数可能离实际的结果相差太远而毫无意义），而是将其舍入为无穷。对于负数结果也是如此，只不过此时舍入为负无穷，也就是说符号域为 1 的无穷。有了 NaN 的经验我们不难理解，特殊值无穷使得计算中发生的上溢错误不必以终止运算为结果。

无穷和除 NaN 以外的其它浮点数一样是有序的，从小到大依次为负无穷，负的有穷非零值，正负零（随后介绍），正的有穷非零值以及正无穷。除 NaN 以外的任何非零值除以零，结果都将是无穷，而符号则由作为除数的零的符号决定。

当零除以零时得到的结果不是无穷而是 NaN 。原因不难理解，当除数和被除数都逼近于零时，其商可能为任何值，所以 IEEE 标准决定此时用 NaN 作为商比较合适。

7.2.5N a N

NaN 用于处理计算中出现的错误情况，比如 0.0 除以 0.0 或者求负数的平方根。由上面的表中可以看出，对于单精度浮点数，NaN 表示为指数为 emax + 1 = 128（指数域全为 1），且尾数域不等于零的浮点数。IEEE 标准没有要求具体的尾数域，所以 NaN 实际上不是一个，而是一族。不同的实现可以自由选择尾数域的值来表达 NaN。

7.3定点数运算

7.3.1数的定标（Q格式）

在许多情况下,数学运算过程中的数不一定都是整数，而且定点DSP和不带FPU的处理器是无能为力的。那么是不是说定点DSP和不带FPU的处理器就不能处理各种小数呢？当然不是。这其中的关键就是由程序员来确定一个数的小数点处于数据中的哪一位。这就是数的定标（由于很多时候，我们都是直接用C来实现浮点运算，具体的底层转化我们并没有去关心，所以也就很少有人知道数的定标）。

通过设定小数点在数据中的不同位置,就可以表示不同大小和不同精度的小数了。数的定标有Q表示法和S表示法两种。下表列出了一个16位数的16种Q表示、S表示及它们所能表示的十进制数值范围。

Q表示 S表示十进制数表示范围

Q15 S0.15 -1≤x≤0.9999695

Q14 S1.14 -2≤x≤1.9999390

Q13 S2.13 -4≤x≤3.9998779

Q12 S3.12 -8≤x≤7.9997559

Q11 S4.11 -16≤x≤15.9995117

Q10 S5.10 -32≤x≤31.9990234

Q9 S6.9 -64≤x≤63.9980469

Q8 S7.8 -128≤x≤127.9960938

Q7 S8.7 -256≤x≤255.9921875

Q6 S9.6 -512≤x≤511.9804375

Q5 S10.5 -1024≤x≤1023.96875

Q4 S11.4 -2048≤x≤2047.9375

Q3 S12.3 -4096≤x≤4095.875

Q2 S13.2 -8192≤x≤8191.75

Q1 S14.1 -16384≤x≤16383.5

Q0 S15.0 -32768≤x≤32767

从上表可以看出,同样一个16位数,若小数点设定的位置不同,它所表示的数也就不同。例如,

16进制数2000H=8192,用Q0表示

16进制数2000H=0.25,用Q15表示

还可以看出,不同的Q所表示的数不仅范围不同,而且精度也不相同。Q越大,数值范围越小,但精度越高;相反,Q越小,数值范围越大,但精度就越低。例如,Q0 的数值范围是-32768到+32767,其精度为1,而Q15的数值范围为-1到0.9999695,精度为1/32768=0.00003051。因此,对定点数而言,数值范围与精度是一对矛盾,一个变量要想能够表示比较大的数值范围,必须以牺牲精度为代价;而想精度提高,则数的表示范围就相应地减小。在实际的定点算法中,为了达到最佳的性能,必须充分考虑到这一点。

浮点数与定点数的转换关系可表示为：

浮点数(x)转换为定点数(xq)：xq=(int)x* 2Q

定点数(xq)转换为浮点数(x)：x=(float)xq*2-Q

例如,浮点数x=0.5,定标Q=15,则定点数xq=L0.5*32768J=16384,式中LJ表示下取整。反之,一个用Q=15表示的定点数16384,其浮点数为16384 *2^-15=16384/32768=0.5。浮点数转换为定点数时,为了降低截尾误差,在取整前可以先加上0.5。

7.3.2定点数的算术运算

关于定点数的算术运算会在讲解ARM官方的DSP教程时专门给大家讲解。

7.4总结

本期教程就跟大家讲这么多，这部分知识对于初学DSP的非常重要，建议认真学习下，有兴趣的可以在网上多查些资料进行了解。

浮点数规格化和教案

第一节 X＝(－1)S×(1.M)×2E－127e＝E－127 X＝(－1)S×(1.M)×2E－1023 e＝E－1023 我承认以前对这俩公式避之不及不予深究努力自己说服自己而未能得逞，部分原因是跟“移码与真值的关系”扯上关系，这“移码与真值的关系”想搞清先得把引入移码的充分理由给我个说法，不幸玩过头正事误了。上回说了“补码省心移码悦目”能算是今时不同往日了吧，现在轮到对IEEE754浮点数规格化表示法杀无赦去死吧。首先，“IEEE规格化形式”是对“传统规格化形式”进一步严格要求来的。 IEEE规格化形式唯一，而浮点数记法多种多样。 (1.75)10=1.11×20 (IEEE规格化表示)=0.111×21 (传统规格化表示) =0.0111×22=0.00111×23 其次，既然IEEE想到对“传统规格化形式”进一步修订当然有目的，你以为作无用功呐，关键目的是什么？规格化的目的同理。修改阶码同时左右移小数点使尾数域最高有效位固定为1，尾数就以ta所可能变化成的最大形式出现，即使遭遇类似截断的操作仍可保持尽可能高的精度。有类错误我这种大秀逗极善于犯！就是不理会左右关系不经过大脑直接作问题少女状问很白的问题：“‘移码和真值的关系’是E=27(或210)+X，那X=E-27(或210),在怎么着里面数该是128(或1024)，咋是127(或1023)？” 当E=M=全0 E(移码)=全0，对应真值-128 M(补码)=全0，对应真值0 E=M=全0，真值X=0-128=0 结合符号位S 为0或1分正零和负零当E=全1，M=全0 E(移码)=全1，对应真值+127 M(补码)=全0，对应真值0 E=全1，M=全0，真值X=0127=∞ 结合符号位S 为0或1分+∞和-∞ 要除去表示零和无穷大这2种特殊情况指数偏移值不选128(10000000)，而选127(01111111) 对IEEE32位规格化浮点数 8位移码(隐含1位符号位)原本表示范围是-128 →+127 （除去全1(+127)全0(-128)剩下-127 →+126 ？？？）实际可用指数值(即阶码真值)e范围是-126→+127 加上偏移值后，阶码E的范围变为1→254 以10的幂表示，绝对值的范围是10-38→1038 假设由S,E,M三个域组成的一个32位二进制字所表示的非零规格化浮点数ｘ,真值表示为：ｘ＝(－1)s×(1.M)×2E－128 它所表示的规格化的最大正数、最小正数、最大负数、最小负数是多少？第二节 1、什么是IEEE754标准用来规范化浮点数，其格式是

浮点数的表示和基本运算

浮点数的表示和基本运算 1 浮点数的表示通常，我们可以用下面的格式来表示浮点数 S P M 其中S是符号位，P是阶码，M是尾数对于IBM-PC而言，单精度浮点数是32位（即4字节）的，双精度浮点数是64位（即8字节）的。两者的S，P，M所占的位数以及表示方法由下表可知 S P M表示公式偏移量 1823(-1)S*2(P-127)*1.M127 11152(-1)S*2(P-1023)*1.M1023 以单精度浮点数为例，可以得到其二进制的表示格式如下 S(第31位)P(30位到 23位) M(22位到 0位) 其中S是符号位，只有0和1，分别表示正负；P是阶码，通常使用移码表示（移码和补码只有符号位相反，其余都一样。对于正数而言，原码，反码和补码都一样；对于负数而言，补码就是其绝对值的原码全部取反，然后加1.）为了简单起见，本文都只讨论单精度浮点数，双精度浮点数也是用一样的方式存储和表示的。 2 浮点数的表示约定单精度浮点数和双精度浮点数都是用IEEE754标准定义的，其中有一些特殊约定。（1）当P = 0, M = 0时，表示0。（2）当P = 255, M = 0时，表示无穷大，用符号位来确定是正无穷大还是负无穷大。

（3）当P = 255, M != 0时，表示NaN（Not a Number，不是一个数）。当我们使用.Net Framework的时候，我们通常会用到下面三个常量 Console.WriteLine(float.MaxValue); // 3.402823E+38 Console.WriteLine(float.MinValue); //-3.402823E+38 Console.WriteLine(float.Epsilon); // 1.401298E-45 //如果我们把它们转换成双精度类型，它们的值如下 Console.WriteLine(Convert.ToDouble(float.MaxValue)); // 3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.MinValue)); //-3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.Epsilon)); // 1.40129846432482E-45 那么这些值是如何求出来的呢？根据上面的约定，我们可以知道阶码P的最大值是11111110（这个值是254，因为255用于特殊的约定，那么对于可以精确表示的数来说，254就是最大的阶码了）。尾数的最大值是11111111111111111111111。那么这个最大值就是：0 11111110 11111111111111111111111。也就是 2(254-127) * (1.11111111111111111111111)2 = 2127 * (1+1-2-23) = 3.40282346638529E+38 从上面的双精度表示可以看出，两者是一致的。最小的数自然就是- 3.40282346638529E+38。对于最接近于0的数，根据IEEE754的约定，为了扩大对0值附近数据的表示能力，取阶码P = -126，尾数 M = (0.00000000000000000000001)2 。此时该数的二进制表示为：0 00000000 00000000000000000000001 也就是2-126 * 2-23 = 2-149 = 1.40129846432482E-45。这个数字和上面的Epsilon 是一致的。如果我们要精确表示最接近于0的数字，它应该是 0 00000001 00000000000000000000000 也就是：2-126 * (1+0) = 1.17549435082229E-38。 3 浮点数的精度问题浮点数以有限的32bit长度来反映无限的实数集合，因此大多数情况下都是一个近似值。同时，对于浮点数的运算还同时伴有误差扩散现象。特定精度下看似

数的定点表示和浮点表示

计算机处理的数值数据多数带有小数，小数点在计算机常有两种表示方法，一种是约定所有数值数据的小数点隐含在某一个固定位置上，称为定点表示法，简称定点数；另一种是小数点位置可以浮动，称为浮点表示法，简称浮点数。 1. 定点数表示法(fixed-point) 所谓定点格式，即约定机器中所有数据的小数点位置是固定不变的。在计算机常采用两种简单的约定：将小数点的位置固定在数据的最高位之前，或者是固定在最低位之后。一般常称前者为定点小数，后者为定点整数。定点小数是纯小数，约定的小数点位置在符号位之后、有效数值部分最高位之前。若数据x的形式为x=x0.x1x2… xn(其中x0为符号位，x1～xn是数值的有效部分，也称为尾数，x1为最高有效位)，则在计算机中的表示形式为：一般说来，如果最末位xn= 1，前面各位都为0，则数的绝对值最小，即|x|min= 2-n。如果各位均为1，则数的绝对值最大，即|x|max=1-2-n。所以定点小数的表示围是：

2-n≤|x|≤1 -2-n 定点整数是纯整数，约定的小数点位置在有效数值部分最低位之后。若数据x的形式为x=x0x1x2…xn(其中x0为符号位，x1～xn是尾数，xn为最低有效位)，则在计算机中的表示形式为：定点整数的表示围是： 1≤|x|≤2n-1 当数据小于定点数能表示的最小值时，计算机将它们作0处理，称为下溢；大于定点数能表示的最大值时，计算机将无法表示，称为上溢，上溢和下溢统称为溢出。计算机采用定点数表示时，对于既有整数又有小数的原始数据，需要设定一个比例因子，数据按其缩小成定点小数或扩大成定点整数再参加运算，运算结果，根据比例因子，还原

浮点数的表示和运算(范围计算)

浮点数的表示和运算浮点数的表示和基本运算 1 浮点数的表示通常，我们可以用下面的格式来表示浮点数其中S是符号位，P是阶码，M是尾数对于IBM-PC而言，单精度浮点数是32位（即4字节）的，双精度浮点数是64位（即8字节）的。两者的S，P，M所占的位数以及表示方法由下表可知以单精度浮点数为例，可以得到其二进制的表示格式如下其中S是符号位，只有0和1，分别表示正负；P是阶码，通常使用移码表示（移码和补码只有符号位相反，其余都一样。对于正数而言，原码，反码和补码都一样；对于负数而言，补码就是其绝对值的原码全部取反，然后加1.）为了简单起见，本文都只讨论单精度浮点数，双精度浮点数也是用一样的方式存储和表示的。 2 浮点数的表示约定单精度浮点数和双精度浮点数都是用IEEE754标准定义的，其中有一些特殊约定。（1）当P = 0, M = 0时，表示0。（2）当P = 255, M = 0时，表示无穷大，用符号位来确定是正无穷大还是负无穷大。（3）当P = 255, M != 0时，表示NaN（Not a Number，不是一个数）。当我们使用.Net Framework的时候，我们通常会用到下面三个常量 Console.WriteLine(float.MaxValue); // 3.402823E+38 Console.WriteLine(float.MinValue); //-3.402823E+38 Console.WriteLine(float.Epsilon); // 1.401298E-45 //如果我们把它们转换成双精度类型，它们的值如下 Console.WriteLine(Convert.ToDouble(float.MaxValue)); // 3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.MinValue)); //-3.40282346638529E+38 Console.WriteLine(Convert.ToDouble(float.Epsilon)); // 1.40129846432482E-45 那么这些值是如何求出来的呢？

浮点数的表示和计算

《计算机组成原理》实验报告

sw $aO, O($fp) #calculate the first nu mber andi $s2, $s0, 0x80000000 # s2 is the sig n srl $s2, $s2, 31 andi $s3, $s0, 0x7f800000 # s3 is the exp onent srl $s3, $s3, 23 andi $s4, $s0, 0x007fffff # s4 is the fractio n addi $s4, $s4, 0x00800000 #calculate the seco nd number andi $s5, $s1, 0x80000000 # s5 is the sig n srl $s5, $s5, 31 andi $s6, $s1, 0x7f800000 # s6 is the exp onent srl $s6, $s6, 23 andi $s7, $s1, 0x007fffff # s7 is the fractio n addi $s7, $s7, 0x00800000 sub $t0, $s3, $s6 bit $t0, 0, sumL1 # add sub bgt $t0, 0, sumL2 # sub add beq $t0, 0, sumL3 2.减法指令如下: mysub: subu $sp, $sp, 32 sw $ra, 20($sp) sw $fp, 16($sp) addiu $fp, $sp, 28 sw $a0, 0($fp) #calculate the first nu mber andi $s2, $s0, 0x80000000 # s2 is the sig n srl $s2, $s2, 31 andi $s3, $s0, 0x7f800000 # s3 is the exp onent srl $s3, $s3, 23 andi $s4, $s0, 0x007fffff # s4 is the fractio n addi $s4, $s4, 0x00800000 #calculate the seco nd number xori $s5, $s1, 0x80000000 # s5 is the sig n srl $s5, $s5, 31 andi $s6, $s1, 0x7f800000 # s6 is the exp onent srl $s6, $s6, 23 andi $s7, $s1, 0x007fffff # s7 is the fractio n addi $s7, $s7, 0x00800000 sub $t0, $s3, $s6 blt $t0, 0, subL1 # +,- bgt $t0, 0, subL2 # -,+ beq $t0, 0, subL3 # +,+ or -,- 3.乘法指令如下： mutilStart: srl $t2, $s0, 31 srl $t3, $s1, 31 sll $t4, $s0, 1

单双精度浮点数的IEEE标准格式

单双精度浮点数的IEEE标准格式目前大多数高级语言（包括C）都按照IEEE-754标准来规定浮点数的存储格式，IEEE754规定，单精度浮点数用4字节存储，双精度浮点数用 8字节存储，分为三个部分：符号位、阶和尾数。阶即指数，尾数即有效小数位数。单精度格式阶占8位，尾数占24位，符号位1位，双精度则为11为阶，53 位尾数和1位符号位，如下图所示： 31 30 23 22 0 63 62 52 51 0 细心的人会发现，单双精度各部分所占字节数量比实际存储格式都了一位，的确是这样，事实是，尾数部分包括了一位隐藏位，允许只存储23位就可以表示24位尾数，默认的1位是规格化浮点数的第一位，当规格化一个浮点数时，总是调整它使其值大于等于1而小于2，亦即个位总是为1。例如1100B，对其规格化的结果为1.1乘以2的三次方，但个位1并不存储在23位尾数部分内，这个1是默认位。阶以移码的形式存储。对于单精度浮点数，偏移量为127（7FH），而双精度的偏移量为1023（3FFH）。存储浮点数的阶码之前，偏移量要先加到阶码上。前面例子中，阶为2的三次方，在单精度浮点数中，移码后的结果为127+3即130（82H），双精度为1026（402H）。浮点数有两个例外。数0.0存储为全零。无限大数的阶码存储为全1，尾数部分全零。符号位指示正无穷或者负无穷。下面举几个例子：

所有字节在内存中的排列顺序，intel的cpu按little endian顺序，motorola 的cpu按big endian顺序排列。

IEEE754标准的一个规格化 32位浮点数x的真值可表示为 x=（-1）^S*（1.M）*2^（E-127）e=E－127 31 30 23 0 ｜S ｜ E ｜M ｜ [例1]若浮点数x的754标准存储格式为（41360000）16，求其浮点数的十进制数值。解：将16进制展开后，可得二进制数格式为 0 100，0001，0 011，0110，0000，0000，0000，0000 S E M 指数e=100，0001，0－01111111=00000011=（3）10 包含隐藏位1的尾数1.M=1.011，0110，0000，0000，0000，0000 于是有x=（-1）^0*（1.M）*2^（E-127） =+（1.011011）2*2^3 =（11.375）10 [例2]将数（20.59375）10转化为754标准的32位浮点数的二进制存储格式。解：首先分别将整数部分和小数部分转换成二进制（20.59375）10=+（10100.10011）2 然后移动小数点使其在1，2位之间 10100.10011=1.010010011*2^4 e=4 于是得到：S=0，E=e+127=131，M=010010011 最后得到32位浮点数的二进制存储格式为 0 100，0001，1 010，0100，1100，0000，0000，0000 =（41A4C000）16 从存储结构和算法上来讲，double和float是一样的，不一样的地方仅仅是float是32位的，double是64位的，所以double能存储更高的精度。任何数据在内存中都是以二进制（0或1）顺序存储的，每一个1或0被称为1位，而在 x86CPU上一个字节是8位。比如一个16位（2字节）的 short int型变量的值是1000，那么它的二进制表达就是：00000011 11101000。由于Intel CPU的架构原因，它是按字节倒序存储的，那么就因该是这样：11101000 00000011，这就是定点数1000在内存中的结构。目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法，用符号、指数和尾数来表示，底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格： ````````符号位阶码尾数长度 float 1 8 23 32 double 1 11 52 64

浮点数表示方法与运算

在计算机系统的发展过程中，曾经提出过多种方法表达实数，典型的比如定点数。在定点数表达方式中，小数点位置固定，而计算机字长有限，所以定点数无法表达很大和很小的实数。最终，计算机科学发展出了表达范围更大的表达方式——浮点数，浮点数也是对实数的一种近似表达。 1.浮点数表达方式我们知道任何一个R 进制数N 均可用下面的形式表示：N R =±S ×R ±e 其中，S—尾数，代表N 的有效数字； R—基值，通常取2、8、16；e—阶码，代表N 的小数点的实际位置(相当于数学中的指数)。比如一个十进制数的浮点表达1.2345×102，其中1.2345为尾数，10为基数，2为阶码。一个二进制数的浮点表达0.001001×25，0.001001为尾数，2为基数，5为阶码；同时0.001001×25也可以表示成0.100100×23，0.100100为尾数，2为基数，3为阶码。浮点数就是利用阶码e 的变化达到浮动小数点的效果，从而灵活地表达更大范围的实数。 2.浮点数的规格化一个数用浮点表示时，存在两个问题：一是如何尽可能多得保留有效数字；二是如何保证浮点表示的唯一。对于数0.001001×25，可以表示成0.100100×23、0.00001001×27等等，所以对于同一个数，浮点有多种表示(也就是不能唯一表示)。另外，如果规定尾数的位数为6位，则0.00001001×27会丢掉有效数字，变成0.000010×27。因此在计算机中，浮点数通常采用规格化表示方法。当浮点数的基数R 为2，即采用二进制数时，规格化尾数的定义为：1/2<=|S|<1。若尾数采用原码(1位符号位+n 位数值)表示，[S]原=S f S 1S 2S 3…S n (S f 为符号位的数符)，则满足S 1=1的数称为规格化数。即当尾数的最高有效位S 1=1，[S]原=S f 1S 2S 3…S n ,表示该浮点数为规格化数。对0.001001×25进行规格化后，表示为0.100100×23。 3.浮点数的表示范围求浮点数的表示范围，实质是求浮点数所能表示的最小负数、最大负数、最小正数和最大正数。

浮点数1

浮点数在计算机中用以近似表示任意某个实数。具体的说，这个实数由一个整数或定点数（即尾数）乘以某个基数（计算机中通常是2）的整数次幂得到，这种表示方法类似于基数为10的科学记数法。浮点计算是指浮点数参与的运算，这种运算通常伴随着因为无法精确表示而进行的近似或舍入。一个浮点数a由两个数m和e来表示：a = m × be。在任意一个这样的系统中，我们选择一个基数b（记数系统的基）和精度p（即使用多少位来存储）。m（即尾数）是形如±d.ddd...ddd的p位数（每一位是一个介于0到b-1之间的整数，包括0和b-1）。如果m的第一位是非0整数，m称作规格化的。有一些描述使用一个单独的符号位（s 代表+或者-）来表示正负，这样m必须是正的。e是指数。这种设计可以在某个固定长度的存储空间内表示定点数无法表示的更大范围的数。例如，一个指数范围为±4的4位十进制浮点数可以用来表示43210，4.321或0.0004321，但是没有足够的精度来表示432.123和43212.3（必须近似为432.1和43210）。当然，实际使用的位数通常远大于4。此外，浮点数表示法通常还包括一些特别的数值：+∞和?∞（正负无穷大）以及NaN（'Not a Number'）。无穷大用于数太大而无法表示的时候，NaN则指示非法操作或者无法定义的结果。大部份计算机采用二进制（b=2）的表示方法。位(bit)是衡量浮点数所需存储空间的单位，通常为32位或64位，分别被叫作单精度和双精度。有一些计算机提供更大的浮点数，例如英特尔公司的浮点运算单元Intel8087协处理器（以及其被集成进x86处理器中的后代产品）提供80位长的浮点数，用于存储浮点运算的中间结果。还有一些系统提供128位的浮点数浮点数的表示在实际应用中，往往会使用实数，例如下面的一些十进制实数： 179.2356=0.1792356x10^3 0.000000001=0.1x10^8 3155760000=0.215576x10^6 很明显，上述第一个数既有整数也有小数，不能用定点数格式化直接表示，后两个数则可能超出了定点数的表示范围，所以计算机引入了类似与科学表示法来标示实数。 (1)典型的浮点数格式在机器中，典型的浮点数格式如图所示浮点数代码由两部分组成：阶码E和尾数M。浮点数真值为： N=+/-(R^E)xM R是阶码的底。在机器中一般规定R为2，4，8或16，与尾数的基数相同。例如尾数为二进制，则R也为2。同一种机器的R值是固定不变的，所以不需要在浮点数代码中表示出来，他是隐含约定的。因此，机器中的浮点数只需表示出阶码和尾数部分。 E是阶码，即指数值，为带符号整数，常用移码或补码表示。 M是尾数，通常是纯小数，常用原码或补码表示。

浮点数和定点数的区别

cloudseawang 定点数与浮点数区别最近做HDR时，经常要用NV提供的16位纹理，它的说明书16位能达到24位的精度，就很奇怪？一直搞不懂浮点数的精度怎么算的？今天认真看了一下IEEE float point的标准，终于明白是什么了 1. 什么是浮点数在计算机系统的发展过程中，曾经提出过多种方法表达实数。典型的比如相对于浮点数的定点数（Fixed Point Number）。在这种表达方式中，小数点固定的位于实数所有数字中间的某个位置。货币的表达就可以使用这种方式，比如99.00 或者00.99 可以用于表达具有四位精度（Precision），小数点后有两位的货币值。由于小数点位置固定，所以可以直接用四位数值来表达相应的数值。SQL 中的NUMBER 数据类型就是利用定点数来定义的。还有一种提议的表达方式为有理数表达方式，即用两个整数的比值来表达实数。定点数表达法的缺点在于其形式过于僵硬，固定的小数点位置决定了固定位数的整数部分和小数部分，不利于同时表达特别大的数或者特别小的数。最终，绝大多数现代的计算机系统采纳了所谓的浮点数表达方式。这种表达方式利用科学计数法来表达实数，即用一个尾数（Mantissa ），一个基数（Base），一个指数（Exponent）以及一个表示正负的符号来表达实数。比如123.45 用十进制科学计数法可以表达为1.2345 × 102 ，其中1.2345 为尾数，10 为基数，2 为指数。浮点数利用指数达到了浮动小数点的效果，从而可以灵活地表达更大范围的实数。提示: 尾数有时也称为有效数字（Significand）。尾数实际上是有效数字的非正式说法。同样的数值可以有多种浮点数表达方式，比如上面例子中的123.45 可以表达为12.345 ×101，0.12345 × 103 或者1.2345 × 102。因为这种多样性，有必要对其加以规范化以达到统一表达的目标。规范的（Normalized）浮点数表达方式具有如下形式： ±d.dd...d × β e , (0 ≤ d i < β) 其中 d.dd...d 即尾数，β 为基数，e 为指数。尾数中数字的个数称为精度，在本文中用p 来表示。每个数字d 介于0 和基数之间，包括0。小数点左侧的数字不为0。基于规范表达的浮点数对应的具体值可由下面的表达式计算而得： ±(d 0 + d 1β-1 + ... + d p-1β-(p-1))β e , (0 ≤ d i < β) 对于十进制的浮点数，即基数β 等于10 的浮点数而言，上面的表达式非常容易理解，也很直白。计算机内部的数值表达是基于二进制的。从上面的表达式，我们可以知道，二进制数同样可以有小数点，也同样具有类似于十进制的表达方式。只是此时β 等于2，而每个数字d 只能在0 和 1 之间取值。比如二进制数1001.101 相当于1 × 2 3 + 0 × 22 + 0 ×21 + 1 ×20 + 1 ×2-1 + 0 ×2-2 + 1 ×2-3，对应于十进制的9.625。其规范浮点数表达为1.001101 × 23。 2. IEEE 浮点数计算机中是用有限的连续字节保存浮点数的。保存这些浮点数当然必须有特定的格式，Java 平台上的浮点数类型float 和double 采纳了IEEE 754 标准中所定义的单精度32 位浮点数和双精度64 位浮点数的格式。注意: Java 平台还支持该标准定义的两种扩展格式，即float-extended-exponent 和double-extended-exponent 扩展格式。这里将不作介绍，有兴趣的读者可以参考相应的参考资料。在IEEE 标准中，浮点数是将特定长度的连续字节的所有二进制位分割为特定宽度的符号域，指数域和尾数域三个域，其中保存的值分别用于表示给定二进制浮点数中的符号，

浮点数加减运算课件

如果一个二进制浮点数的尾数的绝对值小于1并且大于等于0.5，（1＞|尾数|≥0.5），那么这个二进制浮点数就是一个规格化的浮点数。用二进制补码表示1个规格化的浮点数，并且规格化的浮点数的尾数只有一个符号位时：规格化的浮点数的尾数是正数时应该是0 . 1 X X X X X X X X X ……的形式（0表示符号位，X表示0或1中的任意一个数值）规格化的浮点数的尾数是负数时应该是1 . 0 X X X X X X X X X ……的形式（1表示符号位，X表示0或1中的任意一个数值）用二进制补码表示1个规格化的浮点数，并且规格化的浮点数的尾数只有两个符号位时：规格化的浮点数的尾数是正数时应该是00 . 1 X X X X X X X X X ……的形式（00表示符号位，X表示0或1中的任意一个数值）规格化的浮点数的尾数是负数时应该是11 . 0 X X X X X X X X X ……的形式（11表示符号位，X表示0或1中的任意一个数值）两个浮点数加减法的计算结果必须规格化，如果不是规格化的数，则要通过修改阶码并同时左移或者右移尾数，使其变为规格化的数。 [例] x＝2010×0.11011011，y=2100×-0.10101100，浮点数均以补码表示，阶码采用双符号位，尾数采用单符号位。求x+y 。答：（步骤1）转换成题目中要求的浮点数格式：浮点数x＝2010×0.11011011的阶码是+010，尾数是+0.11011011 浮点数均以补码表示，所以阶码以补码表示，并且阶码采用双符号位， [x]浮的阶码＝00010（00是两个符号位）浮点数均以补码表示，所以尾数以补码表示，并且尾数采用单符号位， [x]浮的尾数＝0.11011011（0是1个符号位）

数的定点表示和浮点表示

计算机处理的数值数据多数带有小数，小数点在计算机中通常有两种表示方法，一种是约定所有数值数据的小数点隐含在某一个固定位置上，称为定点表示法，简称定点数；另一种是小数点位置可以浮动，称为浮点表示法，简称浮点数。 1. 定点数表示法(fixed-point) 所谓定点格式，即约定机器中所有数据的小数点位置是固定不变的。在计算机中通常采用两种简单的约定：将小数点的位置固定在数据的最高位之前，或者是固定在最低位之后。一般常称前者为定点小数，后者为定点整数。定点小数是纯小数，约定的小数点位置在符号位之后、有效数值部分最高位之前。若数据x的形式为x=x0.x1x2… xn(其中x0为符号位，x1～xn是数值的有效部分，也称为尾数，x1为最高有效位)，则在计算机中的表示形式为：一般说来，如果最末位xn= 1，前面各位都为0，则数的绝对值最小，即|x|min= 2-n。如果各位均为1，则数的绝对值最大，即|x|max=1-2-n。所以定点小数的表示范围是：

2-n≤|x|≤1 -2-n 定点整数是纯整数，约定的小数点位置在有效数值部分最低位之后。若数据x的形式为x=x0x1x2…xn(其中x0为符号位，x1～xn是尾数，xn为最低有效位)，则在计算机中的表示形式为：定点整数的表示范围是： 1≤|x|≤2n-1 当数据小于定点数能表示的最小值时，计算机将它们作0处理，称为下溢；大于定点数能表示的最大值时，计算机将无法表示，称为上溢，上溢和下溢统称为溢出。计算机采用定点数表示时，对于既有整数又有小数的原始数据，需要设定一个比例因子，数据按其缩小成定点小数或扩大成定点整数再参加运算，运算结果，根据比例因子，还原

浮点数的加减乘除运算步骤

设两个浮点数X=Mx※2Ex Y=My※2Ey 实现X±Y要用如下5步完成： ①对阶操作：小阶向大阶看齐 ②进行尾数加减运算 ③规格化处理：尾数进行运算的结果必须变成规格化的浮点数，对于双符号位的补码尾数来说，就必须是001×××…×× 或110×××…××的形式, 若不符合上述形式要进行左规或右规处理。 ④舍入操作：在执行对阶或右规操作时常用“0”舍“1”入法将右移出去的尾数数值进行舍入，以确保精度。 ⑤判结果的正确性：即阶码是否溢出若阶码下溢（移码表示是00…0），要置结果为机器0；若阶码上溢（超过了阶码表示的最大值）置溢出标志。例题：假定X=0 .0110011*211，Y=0.1101101*2-10（此处的数均为二进制）?? 计算X+Y；解：[X]浮：0 1010 1100110 [Y]浮：0 0110 1101101 符号位阶码尾数第一步：求阶差：│ΔE│=|1010-0110|=0100 第二步：对阶：Y的阶码小，Y的尾数右移4位 [Y]浮变为0 1010 0000110 1101暂时保存第三步：尾数相加，采用双符号位的补码运算 00 1100110 +00 0000110 00 1101100 第四步：规格化：满足规格化要求第五步：舍入处理，采用0舍1入法处理故最终运算结果的浮点数格式为：0 1010 1101101，即X+Y=+0. 1101101*210

①阶码运算：阶码求和（乘法）或阶码求差（除法）即[Ex+Ey]移= [Ex]移+ [Ey]补 [Ex－Ey]移= [Ex]移+ [－Ey]补 ②浮点数的尾数处理：浮点数中尾数乘除法运算结果要进行舍入处理例题：X=0 .0110011*211，Y=0.1101101*2-10 求X※Y 解：[X]浮：0 1 010 ******* [Y]浮：0 0 110 1101101 第一步：阶码相加 [Ex+Ey]移=[Ex]移+[Ey]补=1 010+1 110=1 000 1 000为移码表示的0 第二步：原码尾数相乘的结果为： 0 10101101101110 第三步：规格化处理：已满足规格化要求，不需左规，尾数不变，阶码不变。第四步：舍入处理：按舍入规则，加1进行修正所以X※Y= 0.1010111※2+000

浮点数计算方式

2.3.4二进制转10进制及10进制转为二进制【例2-3-4】把二进制110.11转换成十进制数，及十进制转为二进制。解：（110.11）2 =1×22＋1×21＋1×20＋1×2-1＋1×2-2 ＝4＋2＋0＋0.5＋0.25＝（6.75）10 把十进制转换为二进制解： 2 6 0 2 3 1 1 1 所以实数部分为110 0.75×（2×2-1）＝0.75×2×2-1 ＝1×2-1＋0.5×2-1 ＝1×2-1＋1×2-2 所以结果为：（110.11）2 2.3.5 浮点数在计算机中存储形式当前主流微机中广泛采用的IEEE754标准浮点格式。按IEEE754标准，常用的浮点数（32位短实数）的格式如图2-3所示。

IEEE754标准浮点格式 N=2e.M （M为浮点尾数，为纯小数，e为浮点数的指数（阶码））尾数部分决定了浮点数的精度，阶码决定了表示范围32为浮点数（IEEE754标准格式0—22为尾数M，23-30为阶码E，31为符号位S），阶码用移码表示。阶码E=指数真值e+127 规格化真值x=(-1)^S*(1.M)*2^(E-127) 将(82.25)10 转换成短浮点数格式。 1）先将(82.25)10 转换成二进制数 (82.25)10 =(1010010.01)2 2）规格化二进制数(1010010.01)2 1010010.01=1.01001001×2 6 尾数M=01001001 3）计算移码表示的阶码=偏置值+阶码真值： E=127+6=133=10000101 4）以短浮点数格式存储该数因此：符号位=0 S=0表示该数为正数阶码=10000101 由3）可得尾数=01001001000000000000000 由2）可得；尾数为23位，不足在后面添15位0 所以，短浮点数代码为： 0；10000101；01001001000000000000000 表示为十六进制代码为：42A48000H

浮点数(单精度浮点数与双精度浮点数)在计算机中的存储

浮点数在计算机中的存储十进制浮点数格式：浮点数格式使用科学计数法表示实数。科学计数法把数字表示为系数(coefficient)(也称为尾数(mantissa))，和指数(exponent)两部分。比如3.684*10^2. 在十进制中，指数的基数为10，并且表示小数点移动多少位以生成系数。每次小数点向前移动时，指数就递增；每次小数点向后移动时，指数就递减。例如，25.92 可表示为2.592 * 10^1，其中2.592 是系数，值10^1 是指数。必须把系数和指数相乘，才能得到原始的实数。另外，如0.00172 可表示为1.72*10^-3，数字1.72 必须和10^-3 相乘才能获得原始值。二进制浮点格式：计算机系统使用二进制浮点数，这种格式使用二进制科学计数法的格式表示数值。数字按照二进制格式表示，那么系数和指数都是基于二进制的，而不是十进制，例如1.0101*2^2. 在十进制里，像0.159 这样的值，表示的是0 + (1/10) + (5/100) + (9/1000)。相同的原则也适用二进制。比如，1.0101 乘以2^2 后，生成二进制值101.01 ，这个值表示二进制整数5，加上分数(0/2) + (1/4) 。这生成十进制值5.25 。下表列出几个二进制编写二进制浮点值时，二进制通常被规格化了。这个操作把小数点移动到最左侧的数位，并且修改指针进行补偿。例如1101.011 变成1.101011*2^3 浮点数的存储 ?IEEE 标准754 浮点数标准使用3 个成分把实数定义为二进制浮点值： ?符号 ?有效数字

?指数符号位表示值是负的还是正的。符号位中的1 表示负值，0 表示正值。有效数字部分表示浮点数的系数(coefficient)(或者说尾数(mantissa))。系数可以是规格化的(normalized)，也可以是非规格化的(denormalized)。所谓规格化，就是任何一个数的科学计数法的表示都可为1.xxx*2^n，既然小数点左边的一位都是1，就可以把这一位省略。单精度浮点数23bit的尾数部分，可表示的精度却为24位，道理就在这里。指数表示浮点数的指数部分，是一个无符号整数。因为指数值可以是正值，也可以是负值，所以通过一个偏差值对它进行置偏，及指数的真实值=指数部分的整数—偏差值。对于32位浮点数，偏差值=127；对于64位浮点数，偏差值=1023. 浮点数的这3 个部分被包含在固定长度的数据格式之内。IEEE 标准754 定义了浮点数的两种长度：32位单精度和64位双精度可以用于表示有效数字的位的数量决定精度。下图显示了两种不同精度类型的位布局：单精度浮点使用23 位有效数字值。但是，浮点格式假设有效数字的整数部分永远为1 ，并且不在有效数字值中使用它。这样实际上有效数字的精度达到了24 位。指数使用8 位值，它的范围从0~255，称为移码指数，意思是必须从指数中减去一个数(称为偏移量或者是偏差值)，对单精度浮点数而言，这个值是127 。当指数是0和255时，指数由别的含义，因此实际指数的范围是从-126 到+127 (二进制指数)，这样整个浮点数的范围则为：(1.18 * 10^-38～1.0×2……-126 到3.40 * 10^38～1.1……1×2^127)。 ?指数0和255用于特殊用途。如果指数从1变化到254，则由s（符号位）、e（指数）和f（有效数）来表示的数为： ?

第7章DSP定点数和浮点数(重要)

第7章D S P定点数和浮点数（重要）本期教程主要跟大家讲解一下定点数和浮点数的基础知识，了解这些基础知识对于后面学习ARM官方的DSP库大有裨益。特别是初学的一定要理解这些基础知识。 7.1 定点数和浮点数概念 7.2 IEEE浮点数 7.3 定点数运算 7.4总结 7.1定点数和浮点数概念如果小数点的位置事先已有约定，不再改变，此类数称为“定点数”。相比之下，如果小数点的位置可变，则称为“浮点数”（定点数的本质是小数，整数只是其表现形式）。 7.1.1定点数常用的定点数有两种表示形式：如果小数点位置约定在最低数值位的后面，则该数只能是定点整数；如果小数点位置约定在最高数值位的前面，则该数只能是定点小数。 7.1.2浮点数在计算机系统的发展过程中，曾经提出过多种方法表达实数。典型的比如相对于浮点数的定点数（Fixed Point Number）。在这种表达方式中，小数点固定的位于实数所有数字中间的某个位置。货币的表达就可以使用这种方式，比如 99.00 或者 00.99 可以用于表达具有四位精度（Precision），小数点后有两位的货币值。由于小数点位置固定，所以可以直接用四位数值来表达相应的数值。SQL 中的 NUMBER 数据类型就是利用定点数来定义的。还有一种提议的表达方式为有理数表达方式，即用两个整数的比值来表达实数。定点数表达法的缺点在于其形式过于僵硬，固定的小数点位置决定了固定位数的整数部分和小数部分，不利于同时表达特别大的数或者特别小的数。最终，绝大多数现代的计算机系统采纳了所谓的浮点数表达方式。这种表达方式利用科学计数法来表达实数，即用一个尾数（Mantissa ），一个基数（Base），一个指数（Exponent）以及一个表示正负的符号来表达实数。比如 123.45 用十进制科学计数法可以表达为 1.2345 × 102，其中 1.2345 为尾数，10 为基数，2 为指数。浮点数利用指数达到了浮动小数点的效果，从而可以灵活地表达更大范围的实数。提示: 尾数有时也称为有效数字（Significand）。尾数实际上是有效数字的非正式说法。

IEEE754浮点数格式详解

IEEE754浮点数格式详解计算机应用 2008-03-06 19:19 阅读901 评论3 字号：大中小几乎所有计算机都支持二进制数据表示，即能直接识别二进制数据表示并具有相应的指令系统。通常采用的二进制定点数据表示主要有：符号数值、反码、补码以及带偏移增值码四种形式，其中最常用的是补码形式，这些都已在计算机组成原理课程中做了详细讨论，这里不再阐述。二进制浮点数的表示，由于不同机器所选的基值、尾数位长度和阶码位长度不同，因此对浮点数表示有较大差别，这就不利于软件在不同计算机间的移植。美国IEEE（电子及电子工程师协会）为此提出了一个从系统结构角度支持浮点数的表示方法，称之为IEEE标准754(IEEE，1985)，当今流行的计算机几乎都采用这一标准。 IEEE 754在标识符点数时，每个浮点数均由3个部分组成：符号位S，指数部分E和尾数部分M。浮点数可采用以下四种基本格式： (1)单精度格式(32位)：E=8位，M=23位。 (2)扩展单精度格式：E≥11位，M≥31位。 (3)双精度格式(64)位：E=11位，M=52位。 (4)扩展双精度格式(64位)：E≥15位，M≥63位。其中，单精度格式(32位)中的阶码为8位，另有一位尾数的符号位S，处在最高位。如图4.2.1所示。应该指出的是，浮点数的分数部分与有效位部分两者是不同的，由于IEEE754标准约定在小数点左部有一位隐含位，从而使其有效位实际有24位，这样便使尾数的有效值变为1M。阶码部分采用移码表示，移码值为127，从而使阶码值的范围由原来的1到254，经移码后变为-126到+127。 IEEE 754标准的单精度和双精度浮点数表示格式。其中，阶码值0和255分别用来表示特殊数值：当阶码值为255时，若分数部分为0，则表示无穷大；若分数部分不为0，则认为这是一个‘非数值’。当阶码和尾数均为0时则表示该数值为0，因为非零数的有效位总是≥1，因此特别约定，这表示为0。当阶码为0，尾数不为0时，该数绝对值较小，允许采用比最小规格化数还要小的数表示。概括起来，由32位单精度所表示的IEEE 754标准浮点数N可以有如下的解释：若E=0，且M=0，则N为0。若E=0，且M≠0，则N=(-1)S·2-126·(0.M)。为非规格化数。若1≤E≤254，则N=(-1)S·2E-127·(1.M)。为规格化数。若E=255，且M≠0，则N=NaN（‘非数值’）。若E=255，且M=0，则N=(-1)S∝（无穷大）。由此可见，IEEE 754标准使0有了精确表示，同时也明确地表示了无穷大，所以，当a/0(a≠0)时得到结果值为±∞；当0/0时得到结果值较小的数，为了避免下溢而损失精度，允许采用比最小规格化数还要小的数来表示，这些数称为非规格化数(Denormalnumber)。应注意的是，非规格化数和正、负零的隐含位值不是1而是0。下面举两个例子来说明IEEE 754标准浮点数的表示： (1)N=-1.5，它的单精度格式表示为： 1 01111111 10000000000000000000000 其中，S=1，E=127，M=0.5，因此N=-1.5。