Contenido de este artículo
- 0
- 0
- 0
- 0
A menudo usamos tres valores de suma de cuadrados diferentes para medir qué tan bien una línea de regresión realmente se ajusta a un conjunto de datos:
1. Suma de cuadrados totales (SST): la suma de las diferencias cuadradas entre los puntos de datos individuales (y i ) y la media de la variable de respuesta ( y ).
- SST = Σ (y i – y ) 2
2. Regresión de la suma de cuadrados (SSR) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ i ) y la media de la variable de respuesta ( y ).
- SSR = Σ (ŷ i – y ) 2
3. Error de suma de cuadrados (SSE) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ i ) y los puntos de datos observados (y i ).
- SSE = Σ (ŷ i – y i ) 2
El siguiente ejemplo paso a paso muestra cómo calcular cada una de estas métricas para un modelo de regresión dado en R.
Paso 1: crear los datos
Primero, creemos un conjunto de datos que contenga la cantidad de horas estudiadas y el puntaje del examen recibido por 20 estudiantes diferentes en una determinada universidad:
#create data frame df <- data. fotograma (horas = c (1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 7, 7, 8), puntuación = c (68, 76, 74, 80, 76, 78, 81, 84, 86, 83, 88, 85, 89, 94, 93, 94, 96, 89, 92, 97)) #ver las primeras seis filas del encabezado del marco de datos (df) puntaje de horas 1 1 68 2 1 76 3 1 74 4 2 80 5 2 76 6 2 78
Paso 2: ajustar un modelo de regresión
A continuación, usaremos la función lm () para ajustar un modelo de regresión lineal simple usando puntaje como variable de respuesta y horas como variable de predicción:
#fit modelo de regresión modelo <- lm (puntuación ~ horas, datos = df) #ver resumen de resumen del modelo (modelo) Llamada: lm (fórmula = puntuación ~ horas, datos = gl) Derechos residuales de autor: Mín. 1T Mediana 3T Máx. -8.6970 -2.5156 -0.0737 3.1100 7.5495 Coeficientes: Estimar Std. Valor t de error Pr (> | t |) (Intercepción) 73,4459 1,9147 38,360 <2e-16 *** horas 3.2512 0.4603 7.063 1.38e-06 *** --- Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1 Error estándar residual: 4.289 en 18 grados de libertad R cuadrado múltiple: 0,7348, R cuadrado ajustado: 0,7201 Estadístico F: 49,88 en 1 y 18 DF, valor p: 1,378e-06
Paso 3: Calcular SST, SSR y SSE
Podemos usar la siguiente sintaxis para calcular SST, SSR y SSE:
#find sse sse <- sum (( ajustado (modelo) - df $ score) ^ 2) sse [1] 331.0749 #find ssr ssr <- sum (( ajustado (modelo) - mean (df $ score)) ^ 2) ssr [1] 917.4751 #find sst sst <- ssr + sse sst [1] 1248,55
Las métricas resultan ser:
- Suma de cuadrados total (SST): 1248,55
- Regresión de suma de cuadrados (SSR): 917,4751
- Error de suma de cuadrados (SSE): 331.0749
Podemos verificar que SST = SSR + SSE:
- SST = SSR + SSE
- 1248.55 = 917.4751 + 331.0749
También podemos calcular manualmente el R cuadrado del modelo de regresión:
- R-cuadrado = SSR / SST
- R-cuadrado = 917,4751 / 1248,55
- R-cuadrado = 0,7348
Esto nos dice que el 73,48% de la variación en los puntajes de los exámenes se puede explicar por el número de horas estudiadas.
Recursos adicionales
Puede usar las siguientes calculadoras para calcular automáticamente SST, SSR y SSE para cualquier línea de regresión lineal simple:
Calculadora SST Calculadora
SSR Calculadora
SSE
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: