Cómo interpretar la salida de regresión en R

Para ajustar un modelo de regresión lineal en R, podemos usar el comando lm () .

Para ver la salida del modelo de regresión, podemos usar el comando summary () .

Este tutorial explica cómo interpretar cada valor en la salida de regresión en R.

Ejemplo: interpretación de la salida de regresión en R

El siguiente código muestra cómo ajustar un modelo de regresión lineal múltiple con el conjunto de datos integrado de mtcars usando hp , drat y wt como variables predictoras y mpg como variable de respuesta:

# Ajustar modelo de regresión usando hp, drat y wt como modelo de predictores
 <- lm (mpg ~ hp + drat + wt, data = mtcars)

#ver resumen de
 resumen del modelo (modelo)

Llamada:
lm (fórmula = mpg ~ hp + drat + wt, data = mtcars)

Derechos residuales de autor:
    Mín. 1T Mediana 3T Máx. 
-3,3598 -1,8374 -0,5099 0,9681 5,7078 

Coeficientes:
             Estimar Std. Valor t de error Pr (> | t |)    
(Intercepción) 29.394934 6.156303 4.775 5.13e-05 ***
CV -0,032230 0,008925 -3,611 0,001178 ** 
maldición 1.615049 1.226983 1.316 0.198755    
peso -3,227954 0,796398 -4,053 0,000364 ***
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

Error estándar residual: 2.561 en 28 grados de libertad
R-cuadrado múltiple: 0,8369, R-cuadrado ajustado: 0,8194 
Estadístico F: 47,88 en 3 y 28 DF, valor de p: 3,768e-11

A continuación, se explica cómo interpretar cada valor en la salida:

Llamada

Llamada:
lm (fórmula = mpg ~ hp + drat + wt, data = mtcars)

Esta sección nos recuerda la fórmula que usamos en nuestro modelo de regresión. Podemos ver que usamos mpg como la variable de respuesta y hp , drat y wt como nuestras variables predictoras. Cada variable proviene del conjunto de datos llamado mtcars .

Derechos residuales de autor

Derechos residuales de autor:
    Mín. 1T Mediana 3T Máx. 
-3,3598 -1,8374 -0,5099 0,9681 5,7078 

Esta sección muestra un resumen de la distribución de residuos del modelo de regresión. Recuerde que un residual es la diferencia entre el valor observado y el valor predicho del modelo de regresión.

El residuo mínimo fue -3,3598 , el residuo mediano fue -0,5099 y el residual máximo fue 5,7078 .

Coeficientes

Coeficientes:
             Estimar Std. Valor t de error Pr (> | t |)    
(Intercepción) 29.394934 6.156303 4.775 5.13e-05 ***
CV -0,032230 0,008925 -3,611 0,001178 ** 
maldición 1.615049 1.226983 1.316 0.198755    
peso -3,227954 0,796398 -4,053 0,000364 ***

---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

Esta sección muestra los coeficientes estimados del modelo de regresión. Podemos usar estos coeficientes para formar la siguiente ecuación de regresión estimada:

mpg = 29.39 – .03 * hp + 1.62 * drat – 3.23 * wt

Para cada variable de predicción, se nos dan los siguientes valores:

Estimación: el coeficiente estimado. Esto nos dice el aumento promedio en la variable de respuesta asociado con un aumento de una unidad en la variable predictora, asumiendo que todas las demás variables predictoras se mantienen constantes.

Std. Error : este es el error estándar del coeficiente. Ésta es una medida de la incertidumbre en nuestra estimación del coeficiente.

Valor t: Este es el estadístico t para la variable predictora, calculado como (Estimación) / (Error estándar).

Pr (> | t |): este es el valor p que corresponde al estadístico t. Si este valor es menor que algún nivel alfa (por ejemplo, 0,05), se dice que la variable predictora es estadísticamente significativa.

Si usamos un nivel alfa de α = .05 para determinar qué predictores fueron significativos en este modelo de regresión, diríamos que hp y wt son predictores estadísticamente significativos mientras que drat no lo es.

Evaluación del ajuste del modelo

Error estándar residual: 2.561 en 28 grados de libertad
R-cuadrado múltiple: 0,8369, R-cuadrado ajustado: 0,8194 
Estadístico F: 47,88 en 3 y 28 DF, valor de p: 3,768e-11

Esta última sección muestra varios números que nos ayudan a evaluar qué tan bien se ajusta el modelo de regresión a nuestro conjunto de datos.

Error estándar residual: Esto nos dice la distancia promedio que los valores observados caen desde la línea de regresión. Cuanto menor sea el valor, mejor podrá ajustarse el modelo de regresión a los datos.

Los grados de libertad se calculan como nk-1 donde n = observaciones totales yk = número de predictores. En este ejemplo, mtcars tiene 32 observaciones y usamos 3 predictores en el modelo de regresión, por lo que los grados de libertad son 32 – 3 – 1 = 28.

R cuadrado múltiple: esto se conoce como el coeficiente de determinación. Nos dice la proporción de la varianza en la variable de respuesta que puede ser explicada por las variables predictoras.

Este valor varía de 0 a 1. Cuanto más cerca esté de 1, mejor podrán predecir las variables predictoras el valor de la variable de respuesta.

R cuadrado ajustado: Ths es una versión modificada de R cuadrado que se ha ajustado para el número de predictores en el modelo. Siempre es más bajo que el R-cuadrado.

El R-cuadrado ajustado puede ser útil para comparar el ajuste de diferentes modelos de regresión que usan diferentes números de variables predictoras.

Estadístico F: indica si el modelo de regresión proporciona un mejor ajuste a los datos que un modelo que no contiene variables independientes. En esencia, prueba si el modelo de regresión en su conjunto es útil.

Valor p: Este es el valor p que corresponde al estadístico F. Si este valor es menor que algún nivel de significancia (por ejemplo, 0.05), entonces el modelo de regresión se ajusta mejor a los datos que un modelo sin predictores.

Al construir modelos de regresión, esperamos que este valor p sea menor que algún nivel de significancia porque indica que las variables predictoras son realmente útiles para predecir el valor de la variable de respuesta.

Recursos adicionales

Cómo realizar una regresión lineal simple en R
Cómo realizar una regresión lineal múltiple en R
¿Qué es un buen valor R cuadrado?

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Para winsorize medios de datos para establecer valores atípicos extremos igual a un determinado percentil de los datos. Por ejemplo,…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!