Ciencia de datos - Variación de las estadísticas
Diferencia
La varianza es otro número que indica qué tan dispersos están los valores.
De hecho, si sacas la raíz cuadrada de la varianza, obtienes la desviación estándar. O al revés, si multiplicas la desviación estándar por sí misma, ¡obtienes la varianza!
Primero usaremos el conjunto de datos con 10 observaciones para dar un ejemplo de cómo podemos calcular la varianza:
Duración | Pulso_promedio | Max_pulso | Calorías_quemadas | Horas_Trabajo | Horas_Sueño |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
La varianza a menudo se representa con el símbolo Sigma Square: σ^2
Paso 1 para calcular la varianza: encuentre la media
Queremos encontrar la varianza de Average_Pulse.
1. Encuentra la media:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
La media es 102.5
Paso 2: para cada valor: encuentre la diferencia de la media
2. Encuentra la diferencia de la media para cada valor:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Paso 3: Para cada diferencia - Encuentra el valor cuadrado
3. Encuentra el valor cuadrado para cada diferencia:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Nota: Debemos elevar al cuadrado los valores para obtener el spread total.
Paso 4: La varianza es el número promedio de estos valores al cuadrado
4. Sume los valores al cuadrado y encuentre el promedio:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
La varianza es 206.25.
Use Python para encontrar la varianza de health_data
Podemos usar la var()
función de Numpy para encontrar la varianza (recuerde que ahora usamos el primer conjunto de datos con 10 observaciones):
Ejemplo
import numpy as np
var = np.var(health_data)
print(var)
La salida:
Use Python para encontrar la varianza del conjunto de datos completo
Aquí calculamos la varianza de cada columna para el conjunto de datos completo:
Ejemplo
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
La salida: