Ciencia de datos - Variación de las estadísticas


Diferencia

La varianza es otro número que indica qué tan dispersos están los valores.

De hecho, si sacas la raíz cuadrada de la varianza, obtienes la desviación estándar. O al revés, si multiplicas la desviación estándar por sí misma, ¡obtienes la varianza!

Primero usaremos el conjunto de datos con 10 observaciones para dar un ejemplo de cómo podemos calcular la varianza:

Duración Pulso_promedio Max_pulso Calorías_quemadas Horas_Trabajo Horas_Sueño
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

La varianza a menudo se representa con el símbolo Sigma Square: σ^2


Paso 1 para calcular la varianza: encuentre la media

Queremos encontrar la varianza de Average_Pulse.

1. Encuentra la media:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

La media es 102.5


Paso 2: para cada valor: encuentre la diferencia de la media

2. Encuentra la diferencia de la media para cada valor:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Paso 3: Para cada diferencia - Encuentra el valor cuadrado

3. Encuentra el valor cuadrado para cada diferencia:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Nota: Debemos elevar al cuadrado los valores para obtener el spread total.



Paso 4: La varianza es el número promedio de estos valores al cuadrado

4. Sume los valores al cuadrado y encuentre el promedio:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

La varianza es 206.25.


Use Python para encontrar la varianza de health_data

Podemos usar la var()función de Numpy para encontrar la varianza (recuerde que ahora usamos el primer conjunto de datos con 10 observaciones):

Ejemplo

import numpy as np

var = np.var(health_data)
print(var)

La salida:

Diferencia

Use Python para encontrar la varianza del conjunto de datos completo

Aquí calculamos la varianza de cada columna para el conjunto de datos completo:

Ejemplo

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

La salida:

Diferencia