Ciencia de datos - Desviación estándar de las estadísticas
Desviación Estándar
La desviación estándar es un número que describe qué tan dispersas están las observaciones.
Una función matemática tendrá dificultades para predecir valores precisos, si las observaciones están "dispersas". La desviación estándar es una medida de incertidumbre.
Una desviación estándar baja significa que la mayoría de los números están cerca del valor medio (promedio).
Una desviación estándar alta significa que los valores se distribuyen en un rango más amplio.
La desviación estándar a menudo se representa con el símbolo Sigma: σ
Podemos usar la std()
función de Numpy para encontrar la desviación estándar de una variable:
Ejemplo
import numpy as np
std = np.std(full_health_data)
print(std)
La salida:
¿Qué significan estos números?
Coeficiente de variación
El coeficiente de variación se usa para tener una idea de qué tan grande es la desviación estándar.
Matemáticamente, el coeficiente de variación se define como:
Coefficient of Variation = Standard Deviation / Mean
Podemos hacer esto en Python si procedemos con el siguiente código:
Ejemplo
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
La salida:
Vemos que las variables Duration, Calorie_Burnage y Hours_Work tienen una desviación estándar alta en comparación con Max_Pulse, Average_Pulse y Hours_Sleep.