Cómo calcular SST, SSR y SSE en R

Contenido de este artículo

0.1 Paso 1: crear los datos
0.2 Paso 2: ajustar un modelo de regresión
0.3 Paso 3: Calcular SST, SSR y SSE
0.4 Recursos adicionales

1 Redactor del artículo
2 ¿Te hemos ayudado?

A menudo usamos tres valores de suma de cuadrados diferentes para medir qué tan bien una línea de regresión realmente se ajusta a un conjunto de datos:

1. Suma de cuadrados totales (SST): la suma de las diferencias cuadradas entre los puntos de datos individuales (y _i ) y la media de la variable de respuesta ( y ).

SST = Σ (y _i – y ) ²

2. Regresión de la suma de cuadrados (SSR) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ _i ) y la media de la variable de respuesta ( y ).

SSR = Σ (ŷ _i – y ) ²

3. Error de suma de cuadrados (SSE) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ _i ) y los puntos de datos observados (y _i ).

SSE = Σ (ŷ _i – y _i ) ²

El siguiente ejemplo paso a paso muestra cómo calcular cada una de estas métricas para un modelo de regresión dado en R.

Paso 1: crear los datos

Primero, creemos un conjunto de datos que contenga la cantidad de horas estudiadas y el puntaje del examen recibido por 20 estudiantes diferentes en una determinada universidad:

#create data frame 
df <- data. fotograma (horas = c (1, 1, 1, 2, 2, 2, 2, 2, 3, 3,
                         3, 4, 4, 4, 5, 5, 6, 7, 7, 8),
                 puntuación = c (68, 76, 74, 80, 76, 78, 81, 84, 86, 83,
                         88, 85, 89, 94, 93, 94, 96, 89, 92, 97))

#ver las primeras seis filas del encabezado del marco de datos
 (df)

  puntaje de horas
1 1 68
2 1 76
3 1 74
4 2 80
5 2 76
6 2 78

Paso 2: ajustar un modelo de regresión

A continuación, usaremos la función lm () para ajustar un modelo de regresión lineal simple usando puntaje como variable de respuesta y horas como variable de predicción:

#fit modelo de regresión
modelo <- lm (puntuación ~ horas, datos = df)

#ver resumen de
 resumen del modelo (modelo)

Llamada:
lm (fórmula = puntuación ~ horas, datos = gl)

Derechos residuales de autor:
    Mín. 1T Mediana 3T Máx. 
-8.6970 -2.5156 -0.0737 3.1100 7.5495 

Coeficientes:
            Estimar Std. Valor t de error Pr (> | t |)    
(Intercepción) 73,4459 1,9147 38,360 <2e-16 ***
horas 3.2512 0.4603 7.063 1.38e-06 ***
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

Error estándar residual: 4.289 en 18 grados de libertad
R cuadrado múltiple: 0,7348, R cuadrado ajustado: 0,7201 
Estadístico F: 49,88 en 1 y 18 DF, valor p: 1,378e-06

Paso 3: Calcular SST, SSR y SSE

Podemos usar la siguiente sintaxis para calcular SST, SSR y SSE:

#find sse 
sse <- sum (( ajustado (modelo) - df $ score) ^ 2)
sse

[1] 331.0749

#find ssr ssr
 <- sum (( ajustado (modelo) - mean (df $ score)) ^ 2)
ssr

[1] 917.4751

#find sst
 sst <- ssr + sse
sst

[1] 1248,55

Las métricas resultan ser:

Suma de cuadrados total (SST): 1248,55
Regresión de suma de cuadrados (SSR): 917,4751
Error de suma de cuadrados (SSE): 331.0749

Podemos verificar que SST = SSR + SSE:

SST = SSR + SSE
1248.55 = 917.4751 + 331.0749

También podemos calcular manualmente el R cuadrado del modelo de regresión:

R-cuadrado = SSR / SST
R-cuadrado = 917,4751 / 1248,55
R-cuadrado = 0,7348

Esto nos dice que el 73,48% de la variación en los puntajes de los exámenes se puede explicar por el número de horas estudiadas.

Recursos adicionales

Puede usar las siguientes calculadoras para calcular automáticamente SST, SSR y SSE para cualquier línea de regresión lineal simple:

Calculadora SST Calculadora
SSR Calculadora
SSE

https://r-project.org
https://www.python.org/
https://www.stata.com/

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Equipo de Statologos

Luis Benites

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Director de Statologos.com
Dereck Amesquita

I am a Bachelor of Science in Economics gratuaded from the National University of San Agustin. I have experience in Python, R and other languages, I also have knowledge of statistics and econometrics. If you need help on some issues you can write to me.
Statistics content writer
Cisco Pfoccori

15 años haciendo SEO, monetizando, haciendo nichos y ayudando a empresas a mejoras sus estrategia digital. Pueden contactarme si necesitan mejorar su digitalización, actualmente trabajo para CirculoSEO.
Editor de contenido y SEO

Paso 1: crear los datos

Paso 2: ajustar un modelo de regresión

Paso 3: Calcular SST, SSR y SSE

Recursos adicionales

Redactor del artículo

¿Te hemos ayudado?

Artículos relacionados:

Deja un comentario Cancelar la respuesta

You have Successfully Subscribed!