Datos de IA

Hasta el 80 % de un proyecto de Inteligencia Artificial consiste en recopilar datos :

  • ¿Qué datos se requieren ?
  • ¿Qué datos están disponibles ?
  • ¿Cómo seleccionar los datos?
  • ¿Cómo recopilar los datos?
  • ¿Cómo limpiar los datos?
  • ¿Cómo preparar los datos?
  • ¿Cómo utilizar los datos?

¿Qué son los datos?

Los datos pueden ser muchas cosas. Con Inteligencia Artificial debe ser una colección de hechos:

EscribeEjemplos
NúmerosPrecios. Fechas.
MedicionesTamaño. Altura. Peso.
PalabrasNombres y lugares.
ObservacionesContando carros.
DescripcionesHace frío.

La inteligencia necesita datos

La inteligencia humana necesita datos:

Un corredor de bienes raíces necesita datos sobre las casas vendidas para estimar los precios.

La inteligencia artificial necesita datos:

Un programa de computadora también necesita datos para estimar los precios.


Almacenamiento de datos

Los datos más comunes para recopilar son Números y Medidas.

A menudo, los datos se almacenan en matrices que representan la relación entre valores.

Esta tabla contiene los precios de la vivienda en función del tamaño:

Precio7889991011141415
Tamaño5060708090100 110120130140150

Cuantitativo vs Cualitativo

Los datos cuantitativos son numéricos:

  • 55 coches
  • 15 metros
  • 35 niños

Los datos cualitativos son descriptivos:

  • Hace frío
  • Es largo
  • Fue divertido

Censo o Muestreo

Un censo es cuando recopilamos datos de cada miembro de un grupo.

Una muestra es cuando recopilamos datos para algunos miembros de un grupo.

Si quisiéramos saber cuántos estadounidenses fuman cigarrillos, podríamos preguntarle a cada persona en los EE. UU. (un censo), o podríamos preguntarle a 10 000 personas (una muestra).

Un censo es preciso , pero difícil de hacer. Una muestra es Inexacta , pero es más fácil de hacer.


Términos de muestreo

Una población es un grupo de individuos (objetos) de los que queremos recopilar información.

Un Censo es información sobre cada individuo en una población.

Una muestra es información sobre una parte de la población (para representar a todos).


Muestras aleatorias

Para que una muestra represente a una población, debe recolectarse al azar.

Una muestra aleatoria , es una muestra donde cada miembro de la población tiene la misma oportunidad de aparecer en la muestra.


Sesgo de muestreo

Un sesgo de muestreo (error) ocurre cuando las muestras se recolectan de tal manera que es menos (o más) probable que algunas personas se incluyan en la muestra.