Ciencia de datos : correlación estadística frente a causalidad


La correlación no implica causalidad

La correlación mide la relación numérica entre dos variables.

Un coeficiente de correlación alto (cerca de 1) no significa que podamos concluir con certeza una relación real entre dos variables.

Un ejemplo clásico:

  • Durante el verano, aumenta la venta de helados en una playa
  • Simultáneamente, los accidentes por ahogamiento también aumentan.

¿Significa esto que el aumento de la venta de helados es una causa directa del aumento de los accidentes por ahogamiento?


El ejemplo de la playa en Python

Aquí, construimos un conjunto de datos ficticio para que lo pruebes:

Ejemplo

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Producción:

Correlación vs causalidad

Correlación vs Causalidad - El ejemplo de la playa

En otras palabras: ¿podemos usar la venta de helados para predecir accidentes por ahogamiento?

La respuesta es probablemente no.

Es probable que estas dos variables se correlacionen accidentalmente entre sí.

¿Qué causa el ahogamiento entonces?

  • nadadores sin experiencia
  • Ondas
  • Calambre
  • Trastornos convulsivos
  • Falta de supervisión
  • Consumo (inadecuado) de alcohol
  • etc

Invirtamos el argumento:

¿Un coeficiente de correlación bajo (cercano a cero) significa que el cambio en x no afecta a y?

Volviendo a la pregunta:

  • ¿Podemos concluir que Average_Pulse no afecta Calorie_Burnage debido a un bajo coeficiente de correlación?

La respuesta es no.

Hay una diferencia importante entre correlación y causalidad:

  • La correlación es un número que mide qué tan estrechamente están relacionados los datos
  • La causalidad es la conclusión de que x causa y.

¡Por lo tanto, es importante reflexionar críticamente sobre el concepto de causalidad cuando hacemos predicciones!