¿Qué es la Estadística PRENSA?

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

En estadística, ajustamos modelos de regresión por dos razones:

(1) Para explicar la relación entre una o más variables explicativas y una variable de respuesta .

(2) Para predecir valores de una variable de respuesta en base a los valores de una o más variables explicativas.

Cuando nuestro objetivo es (2) predecir los valores de una variable de respuesta, queremos asegurarnos de que estamos usando el mejor modelo de regresión posible para hacerlo.

Una métrica que podemos utilizar para encontrar el modelo de regresión que se hacen las mejores predicciones sobre nuevos datos es la estadística PRESS , que significa el “ P redicted RE sidual S um de S Quares.”

Se calcula como:

PULSAR = Σ (e i / (1-h ii )) 2

dónde:

  • e i : El iésimo residual.
  • h ii : Una medida de la influencia (también llamada «apalancamiento») de la i- ésima observación en el ajuste del modelo.

Dados varios modelos de regresión, el que tenga la PRENSA más baja debe seleccionarse como el que funcionará mejor en un nuevo conjunto de datos.

El siguiente ejemplo muestra cómo calcular la estadística PRESS para tres modelos de regresión lineal diferentes en R.

Ejemplo: cálculo de la estadística PRESS

Supongamos que tenemos un conjunto de datos con tres variables explicativas, x 1 , x 2 y x 3 , y una variable de respuesta y:

data <- data.frame (x1 = c (2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c (2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c (12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c (23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

El siguiente código muestra cómo ajustar tres modelos de regresión diferentes a este conjunto de datos usando la función lm () :

modelo1 <- lm (y ~ x1, datos = datos)

modelo2 <- lm (y ~ x1 + x2, datos = datos)

modelo3 <- lm (y ~ x2 + x3, datos = datos)

El siguiente código muestra cómo calcular la estadística PRESS para cada modelo.

#crear una función personalizada para calcular la estadística 
PRENSA PRENSA <- función (modelo) {
    i <- residuales (modelo) / (1 - lm. influencia (modelo) $ hat )
    suma (i ^ 2)
}

#calcular PRENSA para el modelo 1
PRENSA (modelo1)

[1] 590.2197

#calcular PRENSA para el modelo 2
PRENSA (modelo2)

[1] 519,6435

#calcular PRENSA para el modelo 3
PRENSA (modelo3)

[1] 537.7503

Resulta que el modelo con el estadístico PRESS más bajo es el modelo 2 con un estadístico PRESS de 519.6435 . Por lo tanto, elegiríamos este modelo como el más adecuado para hacer predicciones en un nuevo conjunto de datos.

Recursos adicionales

Introducción a la regresión lineal simple
¿Qué es un modelo parsimonioso?
¿Qué es un buen valor R cuadrado?

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

F Tabla para α = 0,10 (haga clic para ampliar) F Tabla para α = 0.05 (Haga clic para acercar)…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!