¿Qué es la Estadística PRENSA?

En estadística, ajustamos modelos de regresión por dos razones:

(1) Para explicar la relación entre una o más variables explicativas y una variable de respuesta .

(2) Para predecir valores de una variable de respuesta en base a los valores de una o más variables explicativas.

Cuando nuestro objetivo es (2) predecir los valores de una variable de respuesta, queremos asegurarnos de que estamos usando el mejor modelo de regresión posible para hacerlo.

Una métrica que podemos utilizar para encontrar el modelo de regresión que se hacen las mejores predicciones sobre nuevos datos es la estadística PRESS , que significa el “ P redicted RE sidual S um de S Quares.”

Se calcula como:

PULSAR = Σ (e i / (1-h ii )) 2

dónde:

  • e i : El iésimo residual.
  • h ii : Una medida de la influencia (también llamada «apalancamiento») de la i- ésima observación en el ajuste del modelo.

Dados varios modelos de regresión, el que tenga la PRENSA más baja debe seleccionarse como el que funcionará mejor en un nuevo conjunto de datos.

El siguiente ejemplo muestra cómo calcular la estadística PRESS para tres modelos de regresión lineal diferentes en R.

Ejemplo: cálculo de la estadística PRESS

Supongamos que tenemos un conjunto de datos con tres variables explicativas, x 1 , x 2 y x 3 , y una variable de respuesta y:

data <- data.frame (x1 = c (2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c (2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c (12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c (23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

El siguiente código muestra cómo ajustar tres modelos de regresión diferentes a este conjunto de datos usando la función lm () :

modelo1 <- lm (y ~ x1, datos = datos)

modelo2 <- lm (y ~ x1 + x2, datos = datos)

modelo3 <- lm (y ~ x2 + x3, datos = datos)

El siguiente código muestra cómo calcular la estadística PRESS para cada modelo.

#crear una función personalizada para calcular la estadística 
PRENSA PRENSA <- función (modelo) {
    i <- residuales (modelo) / (1 - lm. influencia (modelo) $ hat )
    suma (i ^ 2)
}

#calcular PRENSA para el modelo 1
PRENSA (modelo1)

[1] 590.2197

#calcular PRENSA para el modelo 2
PRENSA (modelo2)

[1] 519,6435

#calcular PRENSA para el modelo 3
PRENSA (modelo3)

[1] 537.7503

Resulta que el modelo con el estadístico PRESS más bajo es el modelo 2 con un estadístico PRESS de 519.6435 . Por lo tanto, elegiríamos este modelo como el más adecuado para hacer predicciones en un nuevo conjunto de datos.

Recursos adicionales

Introducción a la regresión lineal simple
¿Qué es un modelo parsimonioso?
¿Qué es un buen valor R cuadrado?

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

F Tabla para α = 0,10 (haga clic para ampliar) F Tabla para α = 0.05 (Haga clic para acercar)…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!