Aprendizaje automático - Desviación estándar
¿Qué es la desviación estándar?
La desviación estándar es un número que describe qué tan dispersos están los valores.
Una desviación estándar baja significa que la mayoría de los números están cerca del valor medio (promedio).
Una desviación estándar alta significa que los valores se distribuyen en un rango más amplio.
Ejemplo: Esta vez hemos registrado la velocidad de 7 coches:
speed = [86,87,88,86,87,85,86]
La desviación estándar es:
0.9
Lo que significa que la mayoría de los valores están dentro del rango de 0,9 del valor medio, que es 86,4.
Hagamos lo mismo con una selección de números con un rango más amplio:
speed = [32,111,138,28,59,77,97]
La desviación estándar es:
37.85
Lo que significa que la mayoría de los valores están dentro del rango de 37,85 desde el valor medio, que es 77,4.
Como puede ver, una desviación estándar más alta indica que los valores se distribuyen en un rango más amplio.
El módulo NumPy tiene un método para calcular la desviación estándar:
Ejemplo
Use el método NumPy std()
para encontrar la desviación estándar:
import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)
Ejemplo
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
Diferencia
La varianza es otro número que indica qué tan dispersos están los valores.
De hecho, si sacas la raíz cuadrada de la varianza, ¡obtienes la desviación estándar!
O al revés, si multiplicas la desviación estándar por sí misma, ¡obtienes la varianza!
Para calcular la varianza tienes que hacer lo siguiente:
1. Encuentra la media:
(32+111+138+28+59+77+97) / 7 = 77.4
2. Para cada valor: encuentre la diferencia de la media:
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138
- 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77
- 77.4 = - 0.4
97 - 77.4 = 19.6
3. Para cada diferencia: encuentra el valor del cuadrado:
(-45.4)2 = 2061.16
(33.6)2 = 1128.96
(60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 = 338.56
(- 0.4)2 = 0.16
(19.6)2 = 384.16
4. La varianza es el número promedio de estas diferencias al cuadrado:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16)
/ 7 = 1432.2
Afortunadamente, NumPy tiene un método para calcular la varianza:
Ejemplo
var()
Use el método NumPy para encontrar la varianza:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)
Desviación Estándar
Como hemos aprendido, la fórmula para encontrar la desviación estándar es la raíz cuadrada de la varianza:
√1432.25 = 37.85
O, como en el ejemplo anterior, use NumPy para calcular la desviación estándar:
Ejemplo
Use el método NumPy std()
para encontrar la desviación estándar:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
simbolos
La desviación estándar a menudo se representa con el símbolo Sigma: σ
La varianza a menudo se representa con el símbolo Sigma Square: σ 2
Resumen del capítulo
La desviación estándar y la varianza son términos que se usan a menudo en el aprendizaje automático, por lo que es importante comprender cómo obtenerlos y el concepto detrás de ellos.