Pandas - Correlaciones de datos


Encontrar relaciones

Un gran aspecto del módulo Pandas es el corr()método.

El corr()método calcula la relación entre cada columna en su conjunto de datos.

Los ejemplos en esta página usan un archivo CSV llamado: 'data.csv'.

Descargar data.csv . o Abrir data.csv

Ejemplo

Muestre la relación entre las columnas:

df.corr()

Resultado

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Nota: El corr()método ignora las columnas "no numéricas".

Resultado explicado

El resultado del corr()método es una tabla con muchos números que representa qué tan bien está la relación entre dos columnas.

El número varía de -1 a 1.

1 significa que hay una relación de 1 a 1 (una correlación perfecta), y para este conjunto de datos, cada vez que un valor subió en la primera columna, el otro también subió.

0,9 también es una buena relación, y si aumenta un valor, el otro probablemente también aumentará.

-0.9 sería una relación tan buena como 0.9, pero si aumenta un valor, el otro probablemente disminuirá.

0.2 significa NO una buena relación, lo que significa que si un valor sube no significa que el otro lo hará.

¿Qué es una buena correlación? Depende del uso, pero creo que es seguro decir que debe tener al menos 0.6(o -0.6) para llamarlo una buena correlación.

Correlación Perfecta:

Podemos ver que "Duración" y "Duración" obtuvieron el número 1.000000, lo cual tiene sentido, cada columna siempre tiene una relación perfecta consigo misma.

Buena correlación:

"Duración" y "Calorías" tienen una 0.922721correlación, que es una muy buena correlación, y podemos predecir que cuanto más tiempo entrenas, más calorías quemas, y al revés: si quemas muchas calorías, probablemente tuvo un largo ejercicio.

Mala correlación:

"Duración" y "Pulso máximo" obtuvieron una 0.009403correlación, que es una correlación muy mala, lo que significa que no podemos predecir el pulso máximo con solo mirar la duración del ejercicio, y viceversa.


Ponte a prueba con ejercicios

Ejercicio:

Inserte una sintaxis correcta para encontrar relaciones entre columnas en un DataFrame.

df.()


w3schools CERTIFIED . 2021

¡Obtener la certificación!

¡Complete los módulos de Pandas, haga los ejercicios, tome el examen y obtendrá la certificación de w3schools!

$10 INSCRÍBETE