Pandas - Correlaciones de datos
Encontrar relaciones
Un gran aspecto del módulo Pandas es el corr()
método.
El corr()
método calcula la relación entre cada columna en su conjunto de datos.
Los ejemplos en esta página usan un archivo CSV llamado: 'data.csv'.
Descargar data.csv . o Abrir data.csv
Ejemplo
Muestre la relación entre las columnas:
df.corr()
Resultado
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Nota:
El corr()
método ignora las columnas "no numéricas".
Resultado explicado
El resultado del corr()
método es una tabla con muchos números que representa qué tan bien está la relación entre dos columnas.
El número varía de -1 a 1.
1 significa que hay una relación de 1 a 1 (una correlación perfecta), y para este conjunto de datos, cada vez que un valor subió en la primera columna, el otro también subió.
0,9 también es una buena relación, y si aumenta un valor, el otro probablemente también aumentará.
-0.9 sería una relación tan buena como 0.9, pero si aumenta un valor, el otro probablemente disminuirá.
0.2 significa NO una buena relación, lo que significa que si un valor sube no significa que el otro lo hará.
¿Qué es una buena correlación?
Depende del uso, pero creo que es seguro decir que debe tener al menos 0.6
(o -0.6
) para llamarlo una buena correlación.
Correlación Perfecta:
Podemos ver que "Duración" y "Duración" obtuvieron el número 1.000000
, lo cual tiene sentido, cada columna siempre tiene una relación perfecta consigo misma.
Buena correlación:
"Duración" y "Calorías" tienen una 0.922721
correlación, que es una muy buena correlación, y podemos predecir que cuanto más tiempo entrenas, más calorías quemas, y al revés: si quemas muchas calorías, probablemente tuvo un largo ejercicio.
Mala correlación:
"Duración" y "Pulso máximo" obtuvieron una 0.009403
correlación, que es una correlación muy mala, lo que significa que no podemos predecir el pulso máximo con solo mirar la duración del ejercicio, y viceversa.
¡Obtener la certificación!
$10 INSCRÍBETE