Suma de cuadrados: suma residual, suma total, suma explicada, dentro

Actualizado por ultima vez el 18 de marzo de 2022, por Luis Benites.

suma residual de cuadrados

¿Qué tan bien se ajusta su modelo a los datos reales?

La suma residual de cuadrados se usa para ayudarlo a decidir si un modelo estadístico se ajusta bien a sus datos. Mide la diferencia general entre sus datos y los valores predichos por su modelo de estimación (un » residuo » es una medida de la distancia desde un punto de datos hasta una línea de regresión).

En ANOVA, el SS Total se relaciona con la suma total y la suma explicada con la siguiente fórmula:
SS Total = SS Explicado + Suma Residual de Cuadrados. Mire el video para obtener una definición y los pasos de cálculo para Total (TSS), Entre (BSS) y Dentro de (WSS):

Suma de cuadrados (total, entre, dentro de) Mira este video en YouTube .
¿No puedes ver el vídeo? Haga clic aquí.

¿Cuál es la suma total de cuadrados?

El Total SS (TSS o SST) te dice cuánta variación hay en la variable dependiente .
Total SS = Σ(Yi – media de Y) 2 .
Nota : Sigma (Σ) es un término matemático para suma o «sumar». Te está diciendo que sumes todos los resultados posibles del resto de la ecuación.

La suma de cuadrados es una medida de cómo varía un conjunto de datos alrededor de un número central (como la media ). Es posible que te des cuenta por la frase de que estás sumando ( sumando ) cuadrados, pero ¿cuadrados de qué? A veces verás esta fórmula:
ss2

Otras veces, es posible que vea «cuadrados» reales, como en esta línea de regresión:

suma de cuadrados

Imagen: Universidad de Georgia.

Los cuadrados de los números, como en 4 2 y 10 2 , se pueden representar con cuadrados geométricos reales (imagen cortesía de UMBC.edu ): por lo tanto, las formas cuadradas que ves en las líneas de regresión son solo representaciones de números cuadrados, como 5 2 o 9 2 . Cuando estés buscando una suma de cuadrados, usa la fórmula ; para encontrar el número real que representa una suma de cuadrados. Un diagrama (como la línea de regresión anterior) es opcional y puede proporcionar una representación visual de lo que está calculando.
cuadrícula
ss2

Pregunta de muestra

Encuentre la suma de Sq. para los siguientes números: 3,5,7.
Paso 1: encuentre la media sumando los números y dividiendo por la cantidad de elementos del conjunto:
(3 + 5 + 7) / 3 = 15 / 3 = 5
Paso 2: reste la media de cada uno de sus elementos de datos:
3 – 5 = -2
5 – 5 = 0
7 – 5 = 2
Paso 3: Cuadre sus resultados del Paso 3:
-2 x -2 = 4
0 x 0 = 0
2 x 2 = 4
Paso 4: Sume (suma ) todos tus números:
4 + 4 + 0 = 8.
¡Eso es todo!

Suma de cuadrados en ANOVA y Regresión

Como probablemente pueda adivinar, las cosas se complican un poco más cuando calcula la suma de cuadrados en el análisis de regresión o la prueba de hipótesis . Rara vez se calcula a mano; en cambio, generalmente se usa software como Excel o SPSS para calcular el resultado por usted.

Como referencia, la suma de cuadrados en la regresión usa la ecuación:
ss

Y en ANOVA se calcula con:
El SS total = suma de cuadrados del tratamiento (SST) + SS del error residual (SSE)

¿Qué es la suma de cuadrados explicada?

El SS explicado le dice cuánto de la variación en la variable dependiente explicó su modelo.
SS explicado = Σ(Y-Hat – media de Y) 2 .

¿Qué es la Suma Residual de Cuadrados?

La suma residual de cuadrados le indica qué parte de la variación de la variable dependiente no explicó su modelo . Es la suma de las diferencias al cuadrado entre la Y real y la Y pronosticada:
Suma residual de cuadrados = Σ e2

Si todas esas fórmulas parecen confusas, ¡no se preocupe! Es muy, muy inusual que quieras usarlos. Encontrar la suma a mano es tedioso y requiere mucho tiempo. Implica muchas restas, elevaciones al cuadrado y sumas. Sus cálculos serán propensos a errores, por lo que es mucho mejor usar un software como Excel para hacer los cálculos. Ni siquiera necesitará conocer las fórmulas reales, ya que Excel las trabaja en segundo plano.

Usos

Cuanto menor sea la suma residual de los cuadrados, mejor se ajustará su modelo a sus datos; Cuanto mayor sea la suma residual de los cuadrados, peor se ajustará su modelo a sus datos. Un valor de cero significa que su modelo se ajusta perfectamente. Uno de los principales usos es encontrar el coeficiente de determinación (R 2 ). El coeficiente de determinación es una relación entre la suma de cuadrados explicada y la suma total de cuadrados.

Suma de cuadrados dentro

La variación dentro del grupo se informa en la salida de ANOVA como SS (W) o lo que significa Suma de cuadrados dentro de grupos o SSW: Suma de cuadrados dentro. Está intrínsecamente relacionado con la variación entre grupos (suma de cuadrados entre), la diferencia de varianza causada por la forma en que los grupos interactúan entre sí.

SSW es ​​un componente de la suma total de cuadrados (el otro está entre la suma de cuadrados). Dentro de la suma de cuadrados representa la variación debida a las diferencias individuales en la puntuación. En otras palabras, es la variación de las puntuaciones individuales en torno a la media del grupo; es variación no debida al tratamiento (Newsom, 2013).

Referencias

Beyer, WH CRC Standard Mathematical Tables, 31ª ed. Boca Raton, FL: CRC Press, págs. 536 y 571, 2002.
Kotz, S.; et al., editores. (2006), Enciclopedia de Ciencias Estadísticas , Wiley.
Vogt, WP (2005). Diccionario de estadística y metodología: una guía no técnica para las ciencias sociales . SABIO.
Wheelan, C. (2014). Estadísticas desnudas . WW Norton y compañía

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

La coincidencia del vecino más cercano es una solución a un problema de coincidencia que implica emparejar un punto dado…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!