Datos de IA
Hasta el 80 % de un proyecto de Inteligencia Artificial consiste en recopilar datos :
- ¿Qué datos se requieren ?
- ¿Qué datos están disponibles ?
- ¿Cómo seleccionar los datos?
- ¿Cómo recopilar los datos?
- ¿Cómo limpiar los datos?
- ¿Cómo preparar los datos?
- ¿Cómo utilizar los datos?
¿Qué son los datos?
Los datos pueden ser muchas cosas. Con Inteligencia Artificial debe ser una colección de hechos:
Escribe | Ejemplos |
---|---|
Números | Precios. Fechas. |
Mediciones | Tamaño. Altura. Peso. |
Palabras | Nombres y lugares. |
Observaciones | Contando carros. |
Descripciones | Hace frío. |
La inteligencia necesita datos
La inteligencia humana necesita datos:
Un corredor de bienes raíces necesita datos sobre las casas vendidas para estimar los precios.
La inteligencia artificial necesita datos:
Un programa de computadora también necesita datos para estimar los precios.
Almacenamiento de datos
Los datos más comunes para recopilar son Números y Medidas.
A menudo, los datos se almacenan en matrices que representan la relación entre valores.
Esta tabla contiene los precios de la vivienda en función del tamaño:
Precio | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
Tamaño | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Cuantitativo vs Cualitativo
Los datos cuantitativos son numéricos:
- 55 coches
- 15 metros
- 35 niños
Los datos cualitativos son descriptivos:
- Hace frío
- Es largo
- Fue divertido
Censo o Muestreo
Un censo es cuando recopilamos datos de cada miembro de un grupo.
Una muestra es cuando recopilamos datos para algunos miembros de un grupo.
Si quisiéramos saber cuántos estadounidenses fuman cigarrillos, podríamos preguntarle a cada persona en los EE. UU. (un censo), o podríamos preguntarle a 10 000 personas (una muestra).
Un censo es preciso , pero difícil de hacer. Una muestra es Inexacta , pero es más fácil de hacer.
Términos de muestreo
Una población es un grupo de individuos (objetos) de los que queremos recopilar información.
Un Censo es información sobre cada individuo en una población.
Una muestra es información sobre una parte de la población (para representar a todos).
Muestras aleatorias
Para que una muestra represente a una población, debe recolectarse al azar.
Una muestra aleatoria , es una muestra donde cada miembro de la población tiene la misma oportunidad de aparecer en la muestra.
Sesgo de muestreo
Un sesgo de muestreo (error) ocurre cuando las muestras se recolectan de tal manera que es menos (o más) probable que algunas personas se incluyan en la muestra.