Conjuntos de caracteres HTML


Para mostrar una página HTML correctamente, el navegador debe saber qué juego de caracteres (codificación) usar:

Ejemplo

<meta charset="UTF-8">

Conjuntos de caracteres HTML

¡La especificación HTML5 alienta a los desarrolladores web a usar el juego de caracteres UTF-8!

Este no siempre ha sido el caso. La codificación de caracteres para la web inicial era ASCII.

Posteriormente, de HTML 2.0 a HTML 4.01, ISO-8859-1 se consideró como el conjunto de caracteres estándar.

Con XML y HTML5, finalmente llegó UTF-8 y resolvió muchos problemas de codificación de caracteres.


Al principio: ASCII

Los datos de la computadora se almacenan como códigos binarios (01000101) en la electrónica.

Para estandarizar el almacenamiento de texto, se creó el Código estándar estadounidense para el intercambio de información (ASCII). Definió un número binario único para cada carácter almacenable para admitir los números del 0 al 9, el alfabeto en mayúsculas y minúsculas (az, AZ) y caracteres especiales como ! $ + - ( ) @ < > , .

Dado que ASCII usaba 7 bits para el carácter, solo podía representar 128 caracteres diferentes.

La mayor debilidad con ASCII, fue que excluyó las letras no inglesas.

ASCII todavía se usa en la actualidad, especialmente en grandes sistemas informáticos centrales.

Para ver más de cerca, estudie nuestra Referencia ASCII completa .


En Windows: Windows-1252

Windows-1252 era el conjunto de caracteres predeterminado en Windows, hasta Windows 95.

Es una extensión de ASCII, con caracteres internacionales añadidos.

Utiliza un byte completo (8 bits) para representar 256 caracteres diferentes.

Dado que Windows-1252 ha sido el predeterminado en Windows, es compatible con todos los navegadores.

Para ver más de cerca, estudie: La referencia completa de Windows-1252 .



En HTML 4: ISO-8859-1

El juego de caracteres más utilizado en HTML 4 fue ISO-8859-1.

ISO-8859-1 es una extensión de ASCII, con caracteres internacionales agregados.

Ejemplo

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

En HTML 4, se puede especificar un conjunto de caracteres diferente de ISO-8859-1 en la etiqueta <meta>:

Ejemplo

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Todos los procesadores HTML 4 también admiten UTF-8:

Ejemplo

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Cuando un navegador detecta ISO-8859-1, normalmente se establece de forma predeterminada en Windows-1252, porque Windows-1252 tiene 32 caracteres internacionales más.

Para ver más de cerca, estudie: La referencia completa de ISO-8859-1


En HTML5: Unicode UTF-8

La especificación HTML5 alienta a los desarrolladores web a utilizar el conjunto de caracteres UTF-8.

Ejemplo

<meta charset="UTF-8">

Se puede especificar un conjunto de caracteres diferente de UTF-8 en la etiqueta <meta>:

Ejemplo

<meta charset="ISO-8859-1">

El Consorcio Unicode desarrolló los estándares UTF-8 y UTF-16 porque los conjuntos de caracteres ISO-8859 son limitados y no son compatibles con un entorno multilingüe.

El estándar Unicode cubre (casi) todos los caracteres, puntuaciones y símbolos del mundo.

Todos los procesadores HTML5 y XML admiten UTF-8, UTF-16, Windows-1252 e ISO-8859.

Para ver más de cerca, estudie: La referencia completa de Unicode .