Ciencia de datos - Tabla de regresión: Valor P
Las "Estadísticas de la parte de los coeficientes" en la tabla de regresión
Ahora, queremos probar si los coeficientes de la función de regresión lineal tienen un impacto significativo en la variable dependiente (Calorie_Burnage).
Esto significa que queremos probar que existe una relación entre Average_Pulse y Calorie_Burnage, usando pruebas estadísticas.
Hay cuatro componentes que explican las estadísticas de los coeficientes:
- std err significa error estándar
- t es el "valor t" de los coeficientes
- P>|t| se llama el "valor P"
- [0.025 0.975] representa el intervalo de confianza de los coeficientes
Nos centraremos en comprender el "valor P" en este módulo.
El valor P
El valor P es un número estadístico para concluir si existe una relación entre Average_Pulse y Calorie_Burnage.
Probamos si el verdadero valor del coeficiente es igual a cero (sin relación). La prueba estadística para esto se llama prueba de hipótesis.
- Un valor P bajo (< 0,05) significa que es probable que el coeficiente no sea igual a cero.
- Un valor P alto (> 0,05) significa que no podemos concluir que la variable explicativa afecta a la variable dependiente (aquí: si Average_Pulse afecta a Calorie_Burnage).
- Un valor P alto también se denomina valor P insignificante.
Prueba de hipótesis
La prueba de hipótesis es un procedimiento estadístico para probar si sus resultados son válidos.
En nuestro ejemplo, estamos probando si el verdadero coeficiente de Average_Pulse y la intersección es igual a cero.
La prueba de hipótesis tiene dos afirmaciones. La hipótesis nula y la hipótesis alternativa.
- La hipótesis nula se puede escribir brevemente como H0
- La hipótesis alternativa se puede escribir brevemente como HA
Matemáticamente escrito:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
El signo ≠ significa "no igual a"
Prueba de hipótesis y valor P
La hipótesis nula puede ser rechazada o no.
Si rechazamos la hipótesis nula, concluimos que existe una relación entre Average_Pulse y Calorie_Burnage. El valor P se utiliza para esta conclusión.
Un umbral común del valor P es 0,05.
Nota: Un valor P de 0,05 significa que el 5 % de las veces rechazaremos falsamente la hipótesis nula. Significa que aceptamos que el 5% de las veces, podríamos haber concluido una relación falsamente.
Si el valor de P es inferior a 0,05, podemos rechazar la hipótesis nula y concluir que existe una relación entre las variables.
Sin embargo, el valor P de Average_Pulse es 0,824. Por lo tanto, no podemos concluir una relación entre Average_Pulse y Calorie_Burnage.
Significa que hay un 82,4 % de posibilidades de que el verdadero coeficiente de Average_Pulse sea cero.
La intersección se usa para ajustar la capacidad de la función de regresión para predecir con mayor precisión. Por lo tanto, es poco común interpretar el valor P de la intersección.