Contenido de este artículo
- 0
- 0
- 0
- 0
Un residual es la diferencia entre un valor observado y un valor predicho en un modelo de regresión .
Se calcula como:
Residual = Valor observado – Valor previsto
Si graficamos los valores observados y superponemos la línea de regresión ajustada, los residuos para cada observación serían la distancia vertical entre la observación y la línea de regresión:
Un tipo de residual que usamos a menudo para identificar valores atípicos en un modelo de regresión se conoce como residual estandarizado .
Se calcula como:
r i = e i / s (e i ) = e i / RSE√ 1-h ii
dónde:
- e i : El i- ésimo residuo
- RSE: el error estándar residual del modelo
- h ii : El apalancamiento de la i- ésima observación
En la práctica, a menudo consideramos que cualquier residuo estandarizado con un valor absoluto superior a 3 es un valor atípico.
Este tutorial proporciona un ejemplo paso a paso de cómo calcular los residuos estandarizados en R.
Paso 1: ingrese los datos
Primero, crearemos un pequeño conjunto de datos para trabajar en R:
#crear datos data <- data.frame (x = c (8, 12, 12, 13, 14, 16, 17, 22, 24, 26, 29, 30), y = c (41, 42, 39, 37, 35, 39, 45, 46, 39, 49, 55, 57)) #ver datos de datos xy 1 8 41 2 12 42 3 12 39 4 13 37 5 14 35 6 16 39 7 17 45 8 22 46 9 24 39 10 26 49 11 29 55 12 30 57
Paso 2: ajustar el modelo de regresión
A continuación, usaremos la función lm () para ajustar un modelo de regresión lineal simple :
#fit model model <- lm (y ~ x, data = data) #ver resumen de resumen del modelo (modelo) Llamada: lm (fórmula = y ~ x, datos = datos) Derechos residuales de autor: Mín. 1T Mediana 3T Máx. -8,7578 -2,5161 0,0292 3,3457 5,3268 Coeficientes: Estimar Std. Valor t de error Pr (> | t |) (Intercepción) 29.6309 3.6189 8.188 9.6e-06 *** x 0,7553 0,1821 4,148 0,00199 ** --- Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1 Error estándar residual: 4.442 en 10 grados de libertad R cuadrado múltiple: 0,6324, R cuadrado ajustado: 0,5956 Estadístico F: 17,2 en 1 y 10 DF, valor de p: 0,001988
Paso 3: Calcule los residuos estandarizados
A continuación, usaremos la función rstandard () incorporada para calcular los residuos estandarizados del modelo:
#calcular los residuos estandarizados standard_res <- rstandard (modelo) #ver los residuos estandarizados standard_res 1 2 3 4 5 6 1,40517322 0,81017562 0,07491009 -0,59323342 -1,24820530 -0,64248883 7 8 9 10 11 12 0.59610905 -0.05876884 -2.11711982 -0.06655600 0.91057211 1.26973888
Podemos agregar los residuales estandarizados nuevamente al marco de datos original si quisiéramos:
#column vincula los residuos estandarizados de nuevo al marco de datos original final_data <- cbind (data, standard_res) #ver marco de datos xy standard_res 1 8 41 1,40517322 2 12 42 0.81017562 3 12 39 0,07491009 4 13 37 -0,59323342 5 14 35 -1,24820530 6 16 39 -0,64248883 7 17 45 0,59610905 8 22 46 -0.05876884 9 24 39 -2,11711982 10 26 49 -0.06655600 11 29 55 0,91057211 12 30 57 1.26973888
Luego, podemos ordenar cada observación de mayor a menor de acuerdo con su residuo estandarizado para tener una idea de qué observaciones están más cerca de ser valores atípicos:
#ordenar residuos estandarizados descendentes final_data [ order (-standard_res),] xy standard_res 1 8 41 1,40517322 12 30 57 1.26973888 11 29 55 0,91057211 2 12 42 0.81017562 7 17 45 0,59610905 3 12 39 0,07491009 8 22 46 -0.05876884 10 26 49 -0.06655600 4 13 37 -0,59323342 6 16 39 -0,64248883 5 14 35 -1,24820530 9 24 39 -2,11711982
De los resultados podemos ver que ninguno de los residuales estandarizados excede un valor absoluto de 3. Por lo tanto, ninguna de las observaciones parece ser un valor atípico.
Paso 4: Visualice los residuos estandarizados
Por último, podemos crear un diagrama de dispersión para visualizar los valores de la variable predictora frente a los residuos estandarizados:
#plot predictora variable vs gráfica de residuos estandarizados (final_data $ x, standard_res, ylab = ' Residuales estandarizados ', xlab = ' x ') #add línea horizontal en 0 abline (0, 0)
Recursos adicionales
¿Qué son los residuos?
¿Qué son los residuos estandarizados?
Introducción a la regresión lineal múltiple
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: