Contenido de este artículo
- 0
- 0
- 0
- 0
En estadística, ajustamos modelos de regresión por dos razones:
(1) Para explicar la relación entre una o más variables explicativas y una variable de respuesta .
(2) Para predecir valores de una variable de respuesta en base a los valores de una o más variables explicativas.
Cuando nuestro objetivo es (2) predecir los valores de una variable de respuesta, queremos asegurarnos de que estamos usando el mejor modelo de regresión posible para hacerlo.
Una métrica que podemos utilizar para encontrar el modelo de regresión que se hacen las mejores predicciones sobre nuevos datos es la estadística PRESS , que significa el “ P redicted RE sidual S um de S Quares.”
Se calcula como:
PULSAR = Σ (e i / (1-h ii )) 2
dónde:
- e i : El iésimo residual.
- h ii : Una medida de la influencia (también llamada «apalancamiento») de la i- ésima observación en el ajuste del modelo.
Dados varios modelos de regresión, el que tenga la PRENSA más baja debe seleccionarse como el que funcionará mejor en un nuevo conjunto de datos.
El siguiente ejemplo muestra cómo calcular la estadística PRESS para tres modelos de regresión lineal diferentes en R.
Ejemplo: cálculo de la estadística PRESS
Supongamos que tenemos un conjunto de datos con tres variables explicativas, x 1 , x 2 y x 3 , y una variable de respuesta y:
data <- data.frame (x1 = c (2, 3, 3, 4, 4, 6, 8, 9, 9, 9), x2 = c (2, 2, 3, 3, 2, 3, 5, 6, 6, 7), x3 = c (12, 14, 14, 13, 8, 8, 9, 14, 11, 7), y = c (23, 24, 15, 9, 14, 17, 22, 26, 34, 35))
El siguiente código muestra cómo ajustar tres modelos de regresión diferentes a este conjunto de datos usando la función lm () :
modelo1 <- lm (y ~ x1, datos = datos) modelo2 <- lm (y ~ x1 + x2, datos = datos) modelo3 <- lm (y ~ x2 + x3, datos = datos)
El siguiente código muestra cómo calcular la estadística PRESS para cada modelo.
#crear una función personalizada para calcular la estadística PRENSA PRENSA <- función (modelo) { i <- residuales (modelo) / (1 - lm. influencia (modelo) $ hat ) suma (i ^ 2) } #calcular PRENSA para el modelo 1 PRENSA (modelo1) [1] 590.2197 #calcular PRENSA para el modelo 2 PRENSA (modelo2) [1] 519,6435 #calcular PRENSA para el modelo 3 PRENSA (modelo3) [1] 537.7503
Resulta que el modelo con el estadístico PRESS más bajo es el modelo 2 con un estadístico PRESS de 519.6435 . Por lo tanto, elegiríamos este modelo como el más adecuado para hacer predicciones en un nuevo conjunto de datos.
Recursos adicionales
Introducción a la regresión lineal simple
¿Qué es un modelo parsimonioso?
¿Qué es un buen valor R cuadrado?
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: