Ciencia de datos - Tabla de regresión: Valor P


Las "Estadísticas de la parte de los coeficientes" en la tabla de regresión

Tabla de regresión - Estadísticas de coeficientes

Ahora, queremos probar si los coeficientes de la función de regresión lineal tienen un impacto significativo en la variable dependiente (Calorie_Burnage).

Esto significa que queremos probar que existe una relación entre Average_Pulse y Calorie_Burnage, usando pruebas estadísticas.

Hay cuatro componentes que explican las estadísticas de los coeficientes:

  • std err significa error estándar
  • t es el "valor t" de los coeficientes
  • P>|t| se llama el "valor P"
  •  [0.025 0.975] representa el intervalo de confianza de los coeficientes

Nos centraremos en comprender el "valor P" en este módulo.


El valor P

El valor P es un número estadístico para concluir si existe una relación entre Average_Pulse y Calorie_Burnage.

Probamos si el verdadero valor del coeficiente es igual a cero (sin relación). La prueba estadística para esto se llama prueba de hipótesis.

  • Un valor P bajo (< 0,05) significa que es probable que el coeficiente no sea igual a cero.
  • Un valor P alto (> 0,05) significa que no podemos concluir que la variable explicativa afecta a la variable dependiente (aquí: si Average_Pulse afecta a Calorie_Burnage).
  • Un valor P alto también se denomina valor P insignificante.

Prueba de hipótesis

La prueba de hipótesis es un procedimiento estadístico para probar si sus resultados son válidos.

En nuestro ejemplo, estamos probando si el verdadero coeficiente de Average_Pulse y la intersección es igual a cero.

La prueba de hipótesis tiene dos afirmaciones. La hipótesis nula y la hipótesis alternativa.

  • La hipótesis nula se puede escribir brevemente como H0
  • La hipótesis alternativa se puede escribir brevemente como HA

Matemáticamente escrito:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

El signo ≠ significa "no igual a"


Prueba de hipótesis y valor P

La hipótesis nula puede ser rechazada o no.

Si rechazamos la hipótesis nula, concluimos que existe una relación entre Average_Pulse y Calorie_Burnage. El valor P se utiliza para esta conclusión.

Un umbral común del valor P es 0,05.

Nota: Un valor P de 0,05 significa que el 5 % de las veces rechazaremos falsamente la hipótesis nula. Significa que aceptamos que el 5% de las veces, podríamos haber concluido una relación falsamente.

Si el valor de P es inferior a 0,05, podemos rechazar la hipótesis nula y concluir que existe una relación entre las variables.

Sin embargo, el valor P de Average_Pulse es 0,824. Por lo tanto, no podemos concluir una relación entre Average_Pulse y Calorie_Burnage.

Significa que hay un 82,4 % de posibilidades de que el verdadero coeficiente de Average_Pulse sea cero.

La intersección se usa para ajustar la capacidad de la función de regresión para predecir con mayor precisión. Por lo tanto, es poco común interpretar el valor P de la intersección.