Una guía sencilla para la suma de cuadrados: SST, SSR, SSE

La regresión lineal se utiliza para encontrar la línea que mejor se «ajusta» a un conjunto de datos.

A menudo usamos tres valores de suma de cuadrados diferentes para medir qué tan bien la línea de regresión realmente se ajusta a los datos:

1. Suma de cuadrados totales (SST): la suma de las diferencias cuadradas entre los puntos de datos individuales (y i ) y la media de la variable de respuesta ( y ).

  • SST = Σ (y iy ) 2

2. Regresión de la suma de cuadrados (SSR) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ i ) y la media de la variable de respuesta ( y ).

  • SSR = Σ (ŷ iy ) 2

3. Error de suma de cuadrados (SSE) : la suma de las diferencias cuadradas entre los puntos de datos predichos (ŷ i ) y los puntos de datos observados (y i ).

  • SSE = Σ (ŷ i – y i ) 2

Existe la siguiente relación entre estas tres medidas:

SST = SSR + SSE

Por lo tanto, si conocemos dos de estas medidas, podemos usar un poco de álgebra simple para calcular la tercera.

SSR, SST y R-Squared

R cuadrado , a veces denominado coeficiente de determinación, es una medida de qué tan bien se ajusta un modelo de regresión lineal a un conjunto de datos. Representa la proporción de la varianza en la variable de respuesta que puede ser explicada por la variable predictora.

El valor de R-cuadrado puede oscilar entre 0 y 1. Un valor de 0 indica que la variable de respuesta no puede explicarse en absoluto por la variable de predicción. Un valor de 1 indica que la variable de respuesta se puede explicar perfectamente sin errores mediante la variable predictora.

Usando SSR y SST, podemos calcular R cuadrado como:

R-cuadrado = SSR / SST

Por ejemplo, si la SSR para un modelo de regresión dado es 137.5 y la SST es 156, entonces calcularíamos R-cuadrado como:

R-cuadrado = 137,5 / 156 = 0,8814

Esto nos dice que el 88,14% de la variación en la variable respuesta puede explicarse por la variable predictora.

Calcular SST, SSR, SSE: ejemplo paso a paso

Supongamos que tenemos el siguiente conjunto de datos que muestra la cantidad de horas estudiadas por seis estudiantes diferentes junto con sus puntajes en el examen final:

Usando algún software estadístico (como R , Excel , Python ) o incluso a mano , podemos encontrar que la línea de mejor ajuste es:

Puntuación = 66.615 + 5.0769 * (Horas)

Una vez que conocemos la línea de la ecuación de mejor ajuste, podemos usar los siguientes pasos para calcular SST, SSR y SSE:

Paso 1: Calcule la media de la variable de respuesta.

La media de la variable de respuesta ( y ) resulta ser 81 .

Paso 2: Calcule el valor previsto para cada observación.

A continuación, podemos usar la ecuación de la línea de mejor ajuste para calcular la puntuación del examen prevista () para cada estudiante.

Por ejemplo, la puntuación del examen prevista para el estudiante que estudió una hora es:

Puntuación = 66,615 + 5,0769 * (1) = 71,69 .

Podemos usar el mismo enfoque para encontrar la puntuación prevista para cada estudiante:

Paso 3: Calcule la suma total de cuadrados (SST).

A continuación, podemos calcular la suma total de cuadrados.

Por ejemplo, la suma total de cuadrados para el primer estudiante es:

(y iy ) 2 = (68 – 81) 2 = 169 .

Podemos usar el mismo enfoque para encontrar la suma de cuadrados en total para cada estudiante:

La suma total de cuadrados resulta ser 316 .

Paso 4: Calcule la regresión de suma de cuadrados (SSR).

A continuación, podemos calcular la regresión de suma de cuadrados.

Por ejemplo, la regresión de suma de cuadrados para el primer estudiante es:

iy ) 2 = (71,69 – 81) 2 = 86,64 .

Podemos usar el mismo enfoque para encontrar la regresión de suma de cuadrados para cada estudiante:

La regresión de suma de cuadrados resulta ser 279,23 .

Paso 5: Calcule el error de suma de cuadrados (SSE).

A continuación, podemos calcular el error de suma de cuadrados.

Por ejemplo, el error de la suma de cuadrados para el primer estudiante es:

i – y i ) 2 = (71,69 – 68) 2 = 13,63 .

Podemos usar el mismo enfoque para encontrar el error de suma de cuadrados para cada estudiante:

Ejemplo de cálculo de SST, SSR y SSE para regresión lineal

Podemos verificar que SST = SSR + SSE

  • SST = SSR + SSE
  • 316 = 279,23 + 36,77

También podemos calcular el R-cuadrado del modelo de regresión usando la siguiente ecuación:

  • R-cuadrado = SSR / SST
  • R-cuadrado = 279,23 / 316
  • R-cuadrado = 0.8836

Esto nos dice que el 88,36% de la variación en los puntajes de los exámenes se puede explicar por el número de horas estudiadas.

Recursos adicionales

Puede usar las siguientes calculadoras para calcular automáticamente SST, SSR y SSE para cualquier línea de regresión lineal simple:

Calculadora SST Calculadora
SSR Calculadora
SSE

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Se utiliza una prueba t de dos muestras para comprobar si las medias de dos poblaciones son iguales o no.…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!