Contenido de este artículo
- 0
- 0
- 0
- 0
Uno de los principales supuestos de la regresión lineal es que los residuos se distribuyen normalmente.
Una forma de comprobar visualmente este supuesto es crear un histograma de los residuos y observar si la distribución sigue una «forma de campana» que recuerda a la distribución normal .
Este tutorial proporciona un ejemplo paso a paso de cómo crear un histograma de residuos para un modelo de regresión en R.
Paso 1: crear los datos
Primero, creemos algunos datos falsos para trabajar:
#Haga que este ejemplo sea reproducible set.seed (0) #crear datos x1 <- rnorm (n = 100, 2, 1) x2 <- normal (100, 4, 3) y <- normal (100, 2, 3) data <- data.frame (x1, x2, y) #ver las primeras seis filas del encabezado de datos (datos) x1 x2 y 1 3.262954 6.3455776 -1.1371530 2 1,673767 1,6696701 -0,6886338 3 3.329799 2.1520303 5.8081615 4 3.272429 4.1397409 3.7815228 5 2.414641 0.6088427 4.3269030 6 0,460050 5,7301563 6,6721111
Paso 2: ajustar el modelo de regresión
A continuación, ajustaremos un modelo de regresión lineal múltiple a los datos:
#ajustar modelo de modelo de regresión lineal múltiple <- lm (y ~ x1 + x2, data = data)
Paso 3: cree un histograma de residuos
Por último, usaremos el paquete de visualización ggplot para crear un histograma de los residuos del modelo:
#cargar biblioteca ggplot2 (ggplot2) #crear histograma de residuos ggplot (datos = datos, aes (x = modelo $ residuales)) + geom_histogram (relleno = ' azul acero ', color = ' negro ') + labs (title = ' Histograma de residuos ', x = ' Residuales ', y = ' Frecuencia ')
Tenga en cuenta que también podemos especificar el número de bins en los que colocar los residuales mediante el uso del argumento bin .
Cuantos menos contenedores, más anchas serán las barras en el histograma. Por ejemplo, podríamos especificar 20 contenedores :
#crear histograma de residuos ggplot (datos = datos, aes (x = modelo $ residuos)) + geom_histogram (bins = 20 , fill = ' steelblue ', color = ' black ') + labs (title = ' Histograma de residuos ', x = ' Residuales ', y = ' Frecuencia ')
O podríamos especificar 10 contenedores :
#crear histograma de residuos ggplot (datos = datos, aes (x = modelo $ residuos)) + geom_histogram (bins = 10 , fill = ' steelblue ', color = ' black ') + labs (title = ' Histograma de residuos ', x = ' Residuales ', y = ' Frecuencia ')
No importa cuántos bins especifiquemos, podemos ver que los residuos se distribuyen de manera aproximadamente normal.
También podríamos realizar una prueba estadística formal como Shapiro-Wilk, Kolmogorov-Smirnov o Jarque-Bera para probar la normalidad.
Sin embargo, tenga en cuenta que estas pruebas son sensibles a los tamaños de muestra grandes, es decir, a menudo concluyen que los residuos no son normales cuando el tamaño de la muestra es grande.
Por esta razón, a menudo es más fácil evaluar la normalidad creando un histograma de los residuos.
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: