Cómo calcular SST, SSR y SSE en R

A menudo usamos tres valores de suma de cuadrados diferentes para medir qué tan bien una línea de regresión realmente se ajusta a un conjunto de datos:

1. Suma de cuadrados totales (SST): la suma de las diferencias cuadradas entre los puntos de datos individuales (y i ) y la media de la variable de respuesta ( y ).

  • SST = Σ (y iy ) 2

2. Regresión de la suma de cuadrados (SSR) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ i ) y la media de la variable de respuesta ( y ).

  • SSR = Σ (ŷ iy ) 2

3. Error de suma de cuadrados (SSE) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ i ) y los puntos de datos observados (y i ).

  • SSE = Σ (ŷ i – y i ) 2

El siguiente ejemplo paso a paso muestra cómo calcular cada una de estas métricas para un modelo de regresión dado en R.

Paso 1: crear los datos

Primero, creemos un conjunto de datos que contenga la cantidad de horas estudiadas y el puntaje del examen recibido por 20 estudiantes diferentes en una determinada universidad:

#create data frame 
df <- data. fotograma (horas = c (1, 1, 1, 2, 2, 2, 2, 2, 3, 3,
                         3, 4, 4, 4, 5, 5, 6, 7, 7, 8),
                 puntuación = c (68, 76, 74, 80, 76, 78, 81, 84, 86, 83,
                         88, 85, 89, 94, 93, 94, 96, 89, 92, 97))

#ver las primeras seis filas del encabezado del marco de datos
 (df)

  puntaje de horas
1 1 68
2 1 76
3 1 74
4 2 80
5 2 76
6 2 78

Paso 2: ajustar un modelo de regresión

A continuación, usaremos la función lm () para ajustar un modelo de regresión lineal simple usando puntaje como variable de respuesta y horas como variable de predicción:

#fit modelo de regresión
modelo <- lm (puntuación ~ horas, datos = df)

#ver resumen de
 resumen del modelo (modelo)

Llamada:
lm (fórmula = puntuación ~ horas, datos = gl)

Derechos residuales de autor:
    Mín. 1T Mediana 3T Máx. 
-8.6970 -2.5156 -0.0737 3.1100 7.5495 

Coeficientes:
            Estimar Std. Valor t de error Pr (> | t |)    
(Intercepción) 73,4459 1,9147 38,360 <2e-16 ***
horas 3.2512 0.4603 7.063 1.38e-06 ***
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

Error estándar residual: 4.289 en 18 grados de libertad
R cuadrado múltiple: 0,7348, R cuadrado ajustado: 0,7201 
Estadístico F: 49,88 en 1 y 18 DF, valor p: 1,378e-06

Paso 3: Calcular SST, SSR y SSE

Podemos usar la siguiente sintaxis para calcular SST, SSR y SSE:

#find sse 
sse <- sum (( ajustado (modelo) - df $ score) ^ 2)
sse

[1] 331.0749

#find ssr ssr
 <- sum (( ajustado (modelo) - mean (df ​​$ score)) ^ 2)
ssr

[1] 917.4751

#find sst
 sst <- ssr + sse
sst

[1] 1248,55

Las métricas resultan ser:

  • Suma de cuadrados total (SST): 1248,55
  • Regresión de suma de cuadrados (SSR): 917,4751
  • Error de suma de cuadrados (SSE): 331.0749

Podemos verificar que SST = SSR + SSE:

  • SST = SSR + SSE
  • 1248.55 = 917.4751 + 331.0749

También podemos calcular manualmente el R cuadrado del modelo de regresión:

  • R-cuadrado = SSR / SST
  • R-cuadrado = 917,4751 / 1248,55
  • R-cuadrado = 0,7348

Esto nos dice que el 73,48% de la variación en los puntajes de los exámenes se puede explicar por el número de horas estudiadas.

Recursos adicionales

Puede usar las siguientes calculadoras para calcular automáticamente SST, SSR y SSE para cualquier línea de regresión lineal simple:

Calculadora SST Calculadora
SSR Calculadora
SSE

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Este tutorial explica cómo calcular el producto escalar en Google Sheets. ¿Qué es el producto punto? Dado el vector a…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!