Regresión por pasos

Actualizado por ultima vez el 3 de mayo de 2022, por Luis Benites.

regresión paso a pasoLa regresión por pasos es una forma de construir un modelo agregando o eliminando variables predictoras , generalmente a través de una serie de pruebas F o pruebas T. Las variables que se agregarán o eliminarán se eligen en función de las estadísticas de prueba de los coeficientes estimados . Si bien la técnica tiene sus beneficios, requiere habilidad por parte del investigador, por lo que debe ser realizada por personas que estén muy familiarizadas con las pruebas estadísticas. En esencia, a diferencia de la mayoría de los modelos de regresión, los modelos creados con regresión por pasos deben tomarse con cautela; requieren un buen ojo para detectar si tienen sentido o no.

Cómo funciona la regresión paso a paso

Las dos formas en que el software realizará la regresión por pasos son:

  • Comience la prueba con todas las variables predictoras disponibles (el método «Hacia atrás:»), eliminando una variable a la vez a medida que avanza el modelo de regresión. Utilice este método si tiene una cantidad modesta de variables predictoras y desea eliminar algunas. En cada paso, la variable con la estadística «F-to-remove» más baja se elimina del modelo. La estadística «F-to-remove» se calcula de la siguiente manera:
    1. Se calcula una estadística t para el coeficiente estimado de cada variable en el modelo.
    2. La estadística t se eleva al cuadrado, creando la estadística «F-to-remove».
  • Comience la prueba sin variables predictoras (el método «Adelante»), agregando una a la vez a medida que avanza el modelo de regresión. Si tiene un gran conjunto de variables predictoras, utilice este método. La estadística «F-to-add» se crea usando los mismos pasos anteriores, excepto que el sistema calculará la estadística para cada variable que no esté en el modelo. La variable con la estadística «F-to-add» más alta se agrega al modelo.

Ventajas y desventajas

Las ventajas de la regresión por pasos incluyen:

  • La capacidad de administrar grandes cantidades de posibles variables predictoras, ajustando el modelo para elegir las mejores variables predictoras de las opciones disponibles.
  • Es más rápido que otros métodos automáticos de selección de modelos.
  • Observar el orden en que se eliminan o agregan las variables puede proporcionar información valiosa sobre la calidad de las variables predictoras.

Aunque la regresión por pasos es popular, muchos estadísticos (ver aquí y aquí ) están de acuerdo en que está plagada de problemas y no debe usarse. Algunos problemas incluyen:

  • La regresión por pasos a menudo tiene muchas variables predictoras potenciales, pero muy pocos datos para estimar los coeficientes de manera significativa. Agregar más datos no ayuda mucho, en todo caso.
  • Si dos variables predictoras en el modelo están altamente correlacionadas , solo una puede entrar en el modelo.
  • Los valores de R-cuadrado suelen ser demasiado altos.
  • Los valores de r-cuadrado ajustados pueden ser altos y luego caer bruscamente a medida que avanza el modelo. Si esto sucede, identifique las variables que se agregaron o eliminaron cuando esto sucede y ajuste el modelo.
  • Las pruebas F y chi-cuadrado que se enumeran junto a las variables de salida no tienen esas distribuciones.
  • Los valores pronosticados y los intervalos de confianza son demasiado estrechos.
  • Se dan valores P que no tienen el significado correcto.
  • Los coeficientes de regresión están sesgados y los coeficientes de otras variables son demasiado altos.
  • La colinealidad suele ser un problema importante. Una colinealidad excesiva puede hacer que el programa descargue variables predictoras en el modelo.
  • Algunas variables (especialmente las variables ficticias ) pueden eliminarse del modelo, cuando se considere importante incluirlas. Estos se pueden volver a agregar manualmente.

Referencias

Wang, G. y Jain, W. (2003). Análisis de regresión Modelado y pronóstico . Editorial Graceway.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

Acerca del tamaño de la muestra de MANCOVA MANCOVA (Análisis multivariante de covarianza) prueba una diferencia estadísticamente significativa en el…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!