Cómo calcular SST, SSR y SSE en R

A menudo usamos tres valores de suma de cuadrados diferentes para medir qué tan bien una línea de regresión realmente se ajusta a un conjunto de datos:

1. Suma de cuadrados totales (SST): la suma de las diferencias cuadradas entre los puntos de datos individuales (y i ) y la media de la variable de respuesta ( y ).

  • SST = Σ (y iy ) 2

2. Regresión de la suma de cuadrados (SSR) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ i ) y la media de la variable de respuesta ( y ).

  • SSR = Σ (ŷ iy ) 2

3. Error de suma de cuadrados (SSE) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ i ) y los puntos de datos observados (y i ).

  • SSE = Σ (ŷ i – y i ) 2

El siguiente ejemplo paso a paso muestra cómo calcular cada una de estas métricas para un modelo de regresión dado en R.

Paso 1: crear los datos

Primero, creemos un conjunto de datos que contenga la cantidad de horas estudiadas y el puntaje del examen recibido por 20 estudiantes diferentes en una determinada universidad:

#create data frame 
df <- data. fotograma (horas = c (1, 1, 1, 2, 2, 2, 2, 2, 3, 3,
                         3, 4, 4, 4, 5, 5, 6, 7, 7, 8),
                 puntuación = c (68, 76, 74, 80, 76, 78, 81, 84, 86, 83,
                         88, 85, 89, 94, 93, 94, 96, 89, 92, 97))

#ver las primeras seis filas del encabezado del marco de datos
 (df)

  puntaje de horas
1 1 68
2 1 76
3 1 74
4 2 80
5 2 76
6 2 78

Paso 2: ajustar un modelo de regresión

A continuación, usaremos la función lm () para ajustar un modelo de regresión lineal simple usando puntaje como variable de respuesta y horas como variable de predicción:

#fit modelo de regresión
modelo <- lm (puntuación ~ horas, datos = df)

#ver resumen de
 resumen del modelo (modelo)

Llamada:
lm (fórmula = puntuación ~ horas, datos = gl)

Derechos residuales de autor:
    Mín. 1T Mediana 3T Máx. 
-8.6970 -2.5156 -0.0737 3.1100 7.5495 

Coeficientes:
            Estimar Std. Valor t de error Pr (> | t |)    
(Intercepción) 73,4459 1,9147 38,360 <2e-16 ***
horas 3.2512 0.4603 7.063 1.38e-06 ***
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

Error estándar residual: 4.289 en 18 grados de libertad
R cuadrado múltiple: 0,7348, R cuadrado ajustado: 0,7201 
Estadístico F: 49,88 en 1 y 18 DF, valor p: 1,378e-06

Paso 3: Calcular SST, SSR y SSE

Podemos usar la siguiente sintaxis para calcular SST, SSR y SSE:

#find sse 
sse <- sum (( ajustado (modelo) - df $ score) ^ 2)
sse

[1] 331.0749

#find ssr ssr
 <- sum (( ajustado (modelo) - mean (df ​​$ score)) ^ 2)
ssr

[1] 917.4751

#find sst
 sst <- ssr + sse
sst

[1] 1248,55

Las métricas resultan ser:

  • Suma de cuadrados total (SST): 1248,55
  • Regresión de suma de cuadrados (SSR): 917,4751
  • Error de suma de cuadrados (SSE): 331.0749

Podemos verificar que SST = SSR + SSE:

  • SST = SSR + SSE
  • 1248.55 = 917.4751 + 331.0749

También podemos calcular manualmente el R cuadrado del modelo de regresión:

  • R-cuadrado = SSR / SST
  • R-cuadrado = 917,4751 / 1248,55
  • R-cuadrado = 0,7348

Esto nos dice que el 73,48% de la variación en los puntajes de los exámenes se puede explicar por el número de horas estudiadas.

Recursos adicionales

Puede usar las siguientes calculadoras para calcular automáticamente SST, SSR y SSE para cualquier línea de regresión lineal simple:

Calculadora SST Calculadora
SSR Calculadora
SSE

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Este tutorial explica cómo calcular el producto escalar en Google Sheets. ¿Qué es el producto punto? Dado el vector a…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!