Ciencia de datos - Tabla de regresión: R-Squared


R-cuadrado

R-Squared y R-Squared ajustado describen qué tan bien se ajusta el modelo de regresión lineal a los puntos de datos:

Tabla de regresión - Estadísticas de coeficientes

El valor de R-Squared siempre está entre 0 y 1 (0% a 100%).

  • Un valor alto de R-Squared significa que muchos puntos de datos están cerca de la línea de función de regresión lineal.
  • Un valor bajo de R-Squared significa que la línea de la función de regresión lineal no se ajusta bien a los datos.

Ejemplo visual de un valor R bajo al cuadrado (0,00)

Nuestro modelo de regresión muestra un valor R-Squared de cero, lo que significa que la línea de la función de regresión lineal no se ajusta bien a los datos.

Esto se puede visualizar cuando trazamos la función de regresión lineal a través de los puntos de datos de Average_Pulse y Calorie_Burnage.

R bajo - Valor al cuadrado (0.00)

Ejemplo visual de un valor alto de R - cuadrado (0,79)

Sin embargo, si graficamos Duration y Calorie_Burnage , el R-Squared aumenta. Aquí, vemos que los puntos de datos están cerca de la línea de función de regresión lineal:

R bajo - Valor al cuadrado (0.00)

Aquí está el código en Python:

Ejemplo

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Resumen - Predicción de Calorie_Burnage con Average_Pulse

¿Cómo podemos resumir la función de regresión lineal con Average_Pulse como variable explicativa?

  • Coeficiente de 0.3296, lo que significa que Average_Pulse tiene un efecto muy pequeño en Calorie_Burnage.
  • Alto valor P (0.824), lo que significa que no podemos concluir una relación entre Average_Pulse y Calorie_Burnage.
  • Valor R cuadrado de 0, lo que significa que la línea de la función de regresión lineal no se ajusta bien a los datos.