Ciencia de datos - Tabla de regresión: R-Squared
R-cuadrado
R-Squared y R-Squared ajustado describen qué tan bien se ajusta el modelo de regresión lineal a los puntos de datos:
El valor de R-Squared siempre está entre 0 y 1 (0% a 100%).
- Un valor alto de R-Squared significa que muchos puntos de datos están cerca de la línea de función de regresión lineal.
- Un valor bajo de R-Squared significa que la línea de la función de regresión lineal no se ajusta bien a los datos.
Ejemplo visual de un valor R bajo al cuadrado (0,00)
Nuestro modelo de regresión muestra un valor R-Squared de cero, lo que significa que la línea de la función de regresión lineal no se ajusta bien a los datos.
Esto se puede visualizar cuando trazamos la función de regresión lineal a través de los puntos de datos de Average_Pulse y Calorie_Burnage.
Ejemplo visual de un valor alto de R - cuadrado (0,79)
Sin embargo, si graficamos Duration y Calorie_Burnage , el R-Squared aumenta. Aquí, vemos que los puntos de datos están cerca de la línea de función de regresión lineal:
Aquí está el código en Python:
Ejemplo
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
Resumen - Predicción de Calorie_Burnage con Average_Pulse
¿Cómo podemos resumir la función de regresión lineal con Average_Pulse como variable explicativa?
- Coeficiente de 0.3296, lo que significa que Average_Pulse tiene un efecto muy pequeño en Calorie_Burnage.
- Alto valor P (0.824), lo que significa que no podemos concluir una relación entre Average_Pulse y Calorie_Burnage.
- Valor R cuadrado de 0, lo que significa que la línea de la función de regresión lineal no se ajusta bien a los datos.