Definición
Por qué son necesarios los números de punto flotante
Como la memoria de los ordenadores es limitada, no puedes almacenar números con precisión infinita, no importa si usas fracciones binarias o decimales: en algún momento tienes que cortar. Pero ¿cuánta precisión se necesita? ¿Y dónde se necesita? ¿Cuántos dígitos enteros y cuántos fraccionarios?
-
Para un ingeniero construyendo una autopista, no importa si tiene 10 metros o 10.0001 metros de ancho ─ posiblemente ni siquiera sus mediciones eran así de precisas.
-
Para alguien diseñando un microchip, 0.0001 metros (la décima parte de un milímetro) es una diferencia enorme ─ pero nunca tendrá que manejar distancias mayores de 0.1 metros.
-
Un físico necesita usar la velocidad de la luz (más o menos 300000000) y la constante de gravitación universal (más o menos 0.0000000000667) juntas en el mismo cálculo.
Para satisfacer al ingeniero y al diseñador de circuitos integrados, el formato tiene que ser preciso para números de órdenes de magnitud muy diferentes. Sin embargo, solo se necesita precisión relativa. Para satisfacer al físico, debe ser posible hacer cálculos que involucren números de órdenes muy dispares.
Básicamente, tener un número fijo de dígitos enteros y fraccionarios no es útil ─ y la solución es un formato con un punto flotante.
Cómo funcionan los números de punto flotante
La idea es descomponer el número en dos partes:
-
Una mantisa (también llamada coeficiente o significando) que contiene los dígitos del número. Mantisas negativas representan números negativos.
-
Un exponente que indica dónde se coloca el punto decimal (o binario) en relación al inicio de la mantisa. Exponentes negativos representan números menores que uno.
Este formato cumple todos los requisitos:
-
Puede representar números de órdenes de magnitud enormemente dispares (limitado por la longitud del exponente).
-
Proporciona la misma precisión relativa para todos los órdenes (limitado por la longitud de la mantisa).
-
Permite cálculos entre magnitudes: multiplicar un número muy grande y uno muy pequeño conserva la precisión de ambos en el resultado.
Los números de coma flotante decimales normalmente se expresan en notación científica con un punto explícito siempre entre el primer y el segundo dígitos. El exponente o bien se escribe explícitamente incluyendo la base, o se usa una e para separarlo de la mantisa.
Mantisa |
Exponente |
Notación científica |
Valor en punto fijo |
---|---|---|---|
1.5 |
4 |
1.5 ⋅ 104 |
15000 |
-2.001 |
2 |
-2.001 ⋅ 102 |
-200.1 |
5 |
-3 |
5 ⋅ 10-3 |
0.005 |
6.667 |
-11 |
6.667e-11 |
0.0000000000667 |
El estándar
Casi todo el hardware y lenguajes de programación utilizan números de punto flotante en los mismos formatos binarios, que están definidos en el estándar IEEE 754. Los formatos más comunes son de 32 o 64 bits de longitud total:
Formato |
Bits totales |
Bits significativos |
Bits del exponente |
Número más pequeño |
Número más grande |
---|---|---|---|---|---|
Precisión sencilla |
32 |
23 + 1 signo |
8 |
~1.2 ⋅ 10-38 |
~3.4 ⋅ 1038 |
Precisión doble |
64 |
52 + 1 signo |
11 |
~5.0 ⋅ 10-324 |
~1.8 ⋅ 10308 |
Hay algunas pecularidades:
-
La secuencia de bits es primero el bit del signo, seguido del exponente y finalmente los bits significativos.
-
El exponente no tiene signo; en su lugar se le resta un desplazamiento (127 para sencilla y 1023 para doble precisión). Esto, junto con la secuencia de bits, permite que los números de punto flotante se puedan comparar y ordenar correctamente incluso cuando se interpretan como enteros.
-
Se asume que el bit más significativo de la mantisa es 1 y se omite, excepto para casos especiales.
-
Hay valores diferentes para cero positivo y cero negativo. Estos difieren en el bit del signo, mientras que todos los demás son 0. Deben ser considerados iguales aunque sus secuencias de bits sean diferentes.
-
Hay valores especiales no numéricos (NaN, «not a number» en inglés) en los que el exponente es todo unos y la mantisa no es todo ceros. Estos valores representan el resultado de algunas operaciones indefinidas (como multiplicar 0 por infinito, operaciones que involucren NaN, o casos específicos). Incluso valores NaN con idéntica secuencia de bits no deben ser considerados iguales.