¿Qué son los residuos en las estadísticas?

Contenido de este artículo

0.1 Ejemplo de cálculo de residuos
0.2 Propiedades de los residuos
0.3 ¿Cómo se utilizan los residuos en la práctica?
0.4 Recursos adicionales

1 Redactor del artículo
2 ¿Te hemos ayudado?

Puedes opinar sobre este contenido:

Un residual es la diferencia entre un valor observado y un valor predicho en el análisis de regresión .

Se calcula como:

Residual = Valor observado – Valor previsto

Recuerde que el objetivo de la regresión lineal es cuantificar la relación entre una o más variables predictoras y una variable de respuesta . Para hacer esto, la regresión lineal encuentra la línea que mejor se «ajusta» a los datos, conocida como la línea de regresión de mínimos cuadrados .

Esta línea produce una predicción para cada observación en el conjunto de datos, pero es poco probable que la predicción realizada por la línea de regresión coincida exactamente con el valor observado.

La diferencia entre la predicción y el valor observado es el residual. Si graficamos los valores observados y superponemos la línea de regresión ajustada, los residuos para cada observación serían la distancia vertical entre la observación y la línea de regresión:

Una observación tiene un residuo positivo si su valor es mayor que el valor predicho realizado por la línea de regresión.

Por el contrario, una observación tiene un residuo negativo si su valor es menor que el valor predicho realizado por la línea de regresión.

Algunas observaciones tendrán residuos positivos mientras que otras tendrán residuos negativos, pero todos los residuos sumarán cero .

Ejemplo de cálculo de residuos

Supongamos que tenemos el siguiente conjunto de datos con 12 observaciones en total:

Si usamos algún software estadístico (como R , Excel , Python , Stata , etc.) para ajustar una línea de regresión lineal a este conjunto de datos, encontraremos que la línea de mejor ajuste resulta ser:

y = 29,63 + 0,7553x

Usando esta línea, podemos calcular el valor predicho para cada valor de Y basado en el valor de X. Por ejemplo, el valor predicho de la primera observación sería:

y = 29,63 + 0,7553 * (8) = 35,67

Luego podemos calcular el residual para esta observación como:

Residual = Valor observado – Valor previsto = 41 – 35,67 = 5,33

Podemos repetir este proceso para encontrar el residuo de cada observación:

Si creamos un diagrama de dispersión para visualizar las observaciones junto con la línea de regresión ajustada, veremos que algunas de las observaciones se encuentran por encima de la línea, mientras que otras caen por debajo de la línea:

Propiedades de los residuos

Los residuos tienen las siguientes propiedades:

Cada observación en un conjunto de datos tiene un residuo correspondiente. Entonces, si un conjunto de datos tiene 100 observaciones en total, el modelo producirá 100 valores predichos, lo que da como resultado 100 residuos totales.
La suma de todos los residuos suma cero.
El valor medio de los residuos es cero.

¿Cómo se utilizan los residuos en la práctica?

En la práctica, los residuos se utilizan por tres razones diferentes en la regresión:

1. Evaluar el ajuste del modelo.

Una vez que producimos una línea de regresión ajustada, podemos calcular la suma de cuadrados de los residuos (RSS) , que es la suma de todos los residuos al cuadrado. Cuanto menor sea el RSS, mejor se ajustará el modelo de regresión a los datos.

2. Verifique el supuesto de normalidad.

Uno de los supuestos clave de la regresión lineal es que los residuos se distribuyen normalmente.

Para verificar este supuesto, podemos crear una gráfica QQ, que es un tipo de gráfica que podemos usar para determinar si los residuos de un modelo siguen una distribución normal.

Si los puntos del gráfico forman aproximadamente una línea diagonal recta, se cumple el supuesto de normalidad.

3. Verifique el supuesto de homocedasticidad.

Otro supuesto clave de la regresión lineal es que los residuos tienen una varianza constante en cada nivel de x. Esto se conoce como homocedasticidad. Cuando este no es el caso, se dice que los residuos sufren de heterocedasticidad .

Para comprobar si se cumple este supuesto, podemos crear un gráfico de residuos , que es un gráfico de dispersión que muestra los residuos frente a los valores predichos del modelo.

**Ejemplo de gráfico de valores residuales frente a ajustados**

Si los residuos están distribuidos aproximadamente uniformemente alrededor de cero en la gráfica sin un patrón claro, entonces normalmente decimos que se cumple el supuesto de homocedasticidad.

Recursos adicionales

Introducción a la regresión lineal simple
Introducción a la regresión lineal múltiple
Los cuatro supuestos de la regresión lineal
Cómo crear una gráfica residual en Excel

https://r-project.org
https://www.python.org/
https://www.stata.com/

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: