Cómo realizar una regresión lineal simple en R (paso a paso)

Contenido de este artículo

0.1 Paso 1: cargue los datos
0.2 Paso 2: Visualice los datos
0.3 Paso 3: realizar una regresión lineal simple
0.4 Paso 4: crear parcelas residuales

1 Redactor del artículo

La regresión lineal simple es una técnica que podemos utilizar para comprender la relación entre una única variable explicativa y una única variable de respuesta .

En pocas palabras, esta técnica encuentra la línea que mejor se «ajusta» a los datos y adopta la siguiente forma:

ŷ = segundo ₀ + segundo ₁ x

dónde:

ŷ : el valor de respuesta estimado
b ₀ : la intersección de la línea de regresión
b ₁ : La pendiente de la recta de regresión

Esta ecuación puede ayudarnos a comprender la relación entre la variable explicativa y la de respuesta, y (asumiendo que es estadísticamente significativa) puede usarse para predecir el valor de una variable de respuesta dado el valor de la variable explicativa.

Este tutorial proporciona una explicación paso a paso de cómo realizar una regresión lineal simple en R.

Paso 1: cargue los datos

Para este ejemplo, crearemos un conjunto de datos falso que contiene las siguientes dos variables para 15 estudiantes:

Total de horas estudiadas para algún examen
Puntaje de examen

Intentaremos ajustar un modelo de regresión lineal simple utilizando las horas como variable explicativa y la puntuación del examen como variable de respuesta.

El siguiente código muestra cómo crear este conjunto de datos falso en R:

#create conjunto de datos
df <- data.frame (horas = c (1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
                 puntuación = c (64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89))

#ver las primeras seis filas del encabezado del conjunto de datos
 (df)

  puntaje de horas
1 1 64
2 2 66
3 4 76
4 5 73
5 5 74
6 6 81

#attach dataset para que sea más conveniente trabajar con
 attach (df)

Paso 2: Visualice los datos

Antes de ajustar un modelo de regresión lineal simple, primero debemos visualizar los datos para comprenderlos.

Primero, queremos asegurarnos de que la relación entre las horas y la puntuación sea aproximadamente lineal, ya que es una suposición subyacente masiva de regresión lineal simple. Podemos crear un diagrama de dispersión simple para ver la relación entre las dos variables:

scatter.smooth (horas, puntaje, principal = ' Horas estudiadas vs. Puntaje del examen ')

En la gráfica podemos ver que la relación parece ser lineal. A medida que aumentan las horas , la puntuación tiende a aumentar también de forma lineal.

A continuación, podemos crear un diagrama de caja para visualizar la distribución de las puntuaciones de los exámenes y comprobar si hay valores atípicos . De forma predeterminada, R define una observación como un valor atípico si es 1,5 veces el rango intercuartílico mayor que el tercer cuartil (Q3) o 1,5 veces el rango intercuartílico menor que el primer cuartil (Q1).

Si una observación es un valor atípico, aparecerá un círculo pequeño en la gráfica de caja:

boxplot (puntuación)

No hay círculos pequeños en el diagrama de caja, lo que significa que no hay valores atípicos en nuestro conjunto de datos.

Paso 3: realizar una regresión lineal simple

Una vez que hayamos confirmado que la relación entre nuestras variables es lineal y que no hay valores atípicos presentes, podemos proceder a ajustar un modelo de regresión lineal simple utilizando las horas como variable explicativa y la puntuación como variable de respuesta:

#fit modelo de modelo de regresión lineal simple
 <- lm (puntuación ~ horas)

#ver resumen del modelo
resumen (modelo)

Llamada:
lm (fórmula = puntuación ~ horas)

Derechos residuales de autor:
   Mín. 1T Mediana 3T Máx. 
-5.140 -3.219 -1.193 2.816 5.772 

Coeficientes:
            Estimar Std. Valor t de error Pr (> | t |)    
(Intercepción) 65.334 2.106 31.023 1.41e-13 ***
horas 1.982 0.248 7.995 2.25e-06 ***
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

Error estándar residual: 3.641 en 13 grados de libertad
R cuadrado múltiple: 0,831, R cuadrado ajustado: 0,818 
Estadístico F: 63,91 en 1 y 13 DF, valor p: 2,253e-06

En el resumen del modelo podemos ver que la ecuación de regresión ajustada es:

Puntuación = 65,334 + 1,982 * (horas)

Esto significa que cada hora adicional estudiada está asociada con un aumento promedio en la puntuación del examen de 1,982 puntos. Y el valor de intersección de 65,334 nos dice el puntaje promedio esperado en el examen para un estudiante que estudia cero horas.

También podemos usar esta ecuación para encontrar el puntaje esperado del examen basado en la cantidad de horas que estudia un estudiante. Por ejemplo, se espera que un estudiante que estudia durante 10 horas reciba una puntuación en el examen de 85,15 :

Puntuación = 65,334 + 1,982 * (10) = 85,15

A continuación, se explica cómo interpretar el resto del resumen del modelo:

Pr (> | t |): Este es el valor p asociado con los coeficientes del modelo. Dado que el valor p para horas (2.25e-06) es significativamente menor que .05, podemos decir que existe una asociación estadísticamente significativa entre horas y puntaje .
R-cuadrado múltiple: este número nos dice que el porcentaje de variación en los puntajes del examen se puede explicar por la cantidad de horas estudiadas. En general, cuanto mayor sea el valor R cuadrado de un modelo de regresión, mejor podrán predecir las variables explicativas el valor de la variable de respuesta. En este caso, el 83,1% de la variación en las puntuaciones se puede explicar por horas estudiadas.
Error estándar residual: esta es la distancia promedio que los valores observados caen desde la línea de regresión. Cuanto menor sea este valor, más estrechamente podrá una línea de regresión coincidir con los datos observados. En este caso, el puntaje promedio observado en el examen cae 3.641 puntos del puntaje predicho por la línea de regresión.
Estadístico F y valor p: el estadístico F ( 63,91 ) y el valor p correspondiente ( 2,253e-06 ) nos indican la importancia general del modelo de regresión, es decir, si las variables explicativas del modelo son útiles para explicar la variación. en la variable de respuesta. Dado que el valor p en este ejemplo es menor que .05, nuestro modelo es estadísticamente significativo y se considera que las horas son útiles para explicar la variación en la puntuación .

Paso 4: crear parcelas residuales

Después de ajustar el modelo de regresión lineal simple a los datos, el último paso es crear gráficos de residuos.

Uno de los supuestos clave de la regresión lineal es que los residuos de un modelo de regresión se distribuyen aproximadamente normalmente y son homocedásticos en cada nivel de la variable explicativa. Si se violan estos supuestos, los resultados de nuestro modelo de regresión podrían ser engañosos o poco fiables.

Para verificar que se cumplan estos supuestos, podemos crear las siguientes gráficas de residuos:

Gráfica de valores residuales vs. ajustados: Esta gráfica es útil para confirmar la homocedasticidad. El eje x muestra los valores ajustados y el eje y muestra los residuos. Siempre que los residuos parezcan estar distribuidos de manera aleatoria y uniforme en todo el gráfico alrededor del valor cero, podemos suponer que no se viola la homocedasticidad:

#definir residuos
 res <- resid (modelo)

# producir gráfica de parcela residual vs. ajustada
 (ajustada (modelo), res)

#add una línea horizontal en 0 
 abline (0,0)

Los residuos parecen estar distribuidos aleatoriamente alrededor de cero y no exhiben ningún patrón notable, por lo que se cumple esta suposición.

Gráfico QQ: este gráfico es útil para determinar si los residuos siguen una distribución normal. Si los valores de los datos en el gráfico caen a lo largo de una línea aproximadamente recta en un ángulo de 45 grados, entonces los datos se distribuyen normalmente:

#crear gráfico QQ para residuos
 qqnorm (res)

#agregue una línea diagonal recta al gráfico
 qqline (res)

Los residuos se desvían un poco de la línea de 45 grados, pero no lo suficiente como para causar una gran preocupación. Podemos suponer que se cumple el supuesto de normalidad.

Dado que los residuos se distribuyen normalmente y son homocedásticos, hemos verificado que se cumplen los supuestos del modelo de regresión lineal simple. Por lo tanto, la salida de nuestro modelo es confiable.

El código R completo utilizado en este tutorial se puede encontrar aquí .

https://r-project.org
https://www.python.org/
https://www.stata.com/

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

Paso 1: cargue los datos

Paso 2: Visualice los datos

Paso 3: realizar una regresión lineal simple

Paso 4: crear parcelas residuales

Redactor del artículo

Artículos relacionados:

Deja un comentario Cancelar la respuesta

You have Successfully Subscribed!