Ciencia de datos - Desviación estándar de las estadísticas


Desviación Estándar

La desviación estándar es un número que describe qué tan dispersas están las observaciones.

Desviación Estándar

Una función matemática tendrá dificultades para predecir valores precisos, si las observaciones están "dispersas". La desviación estándar es una medida de incertidumbre.

Una desviación estándar baja significa que la mayoría de los números están cerca del valor medio (promedio).

Una desviación estándar alta significa que los valores se distribuyen en un rango más amplio.

La desviación estándar a menudo se representa con el símbolo Sigma: σ

Podemos usar la std()función de Numpy para encontrar la desviación estándar de una variable:

Ejemplo

import numpy as np

std = np.std(full_health_data)
print(std)

La salida:

Desviación Estándar

¿Qué significan estos números?


Coeficiente de variación

El coeficiente de variación se usa para tener una idea de qué tan grande es la desviación estándar.

Matemáticamente, el coeficiente de variación se define como:

Coefficient of Variation = Standard Deviation / Mean

 Podemos hacer esto en Python si procedemos con el siguiente código:

Ejemplo

import numpy as np

cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)

La salida:

Coeficiente de variación

Vemos que las variables Duration, Calorie_Burnage y Hours_Work tienen una desviación estándar alta en comparación con Max_Pulse, Average_Pulse y Hours_Sleep.