Los 6 supuestos de la regresión logística (con ejemplos)

La regresión logística es un método que podemos utilizar para ajustar un modelo de regresión cuando la variable de respuesta es binaria.

Antes de ajustar un modelo a un conjunto de datos, la regresión logística hace las siguientes suposiciones:

Supuesto n. ° 1: la variable de respuesta es binaria

La regresión logística asume que la variable de respuesta solo toma dos resultados posibles. Algunos ejemplos incluyen:

Sí o no
Masculino o femenino
Aprobar o suspender
Redactado o no redactado
Maligno o Benigno

Cómo verificar esta suposición: simplemente cuente cuántos resultados únicos ocurren en la variable de respuesta. Si hay más de dos resultados posibles, deberá realizar una regresión ordinal en su lugar.

Supuesto n. ° 2: las observaciones son independientes

La regresión logística supone que las observaciones del conjunto de datos son independientes entre sí. Es decir, las observaciones no deben provenir de mediciones repetidas del mismo individuo ni estar relacionadas entre sí de ninguna manera.

Cómo verificar esta suposición: La forma más fácil de verificar esta suposición es crear un gráfico de residuos contra el tiempo (es decir, el orden de las observaciones) y observar si existe o no un patrón aleatorio. Si hay no un patrón aleatorio, entonces esta suposición puede ser violado.

Supuesto n. ° 3: no hay multicolinealidad entre las variables explicativas

La regresión logística asume que no existe una multicolinealidad severa entre las variables explicativas .

La multicolinealidad ocurre cuando dos o más variables explicativas están altamente correlacionadas entre sí, de manera que no brindan información única o independiente en el modelo de regresión. Si el grado de correlación entre variables es lo suficientemente alto, puede causar problemas a la hora de ajustar e interpretar el modelo.

Por ejemplo, suponga que desea realizar una regresión logística utilizando el salto vertical máximo como variable de respuesta y las siguientes variables como variables explicativas:

Altura del jugador
Talla de zapato de jugador
Horas de práctica al día

En este caso, es probable que la altura y el tamaño de los zapatos estén altamente correlacionados, ya que las personas más altas tienden a tener tamaños de zapatos más grandes. Esto significa que es probable que la multicolinealidad sea un problema si usamos ambas variables en la regresión.

Cómo verificar este supuesto: La forma más común de detectar la multicolinealidad es mediante el uso del factor de inflación de la varianza (VIF), que mide la correlación y la fuerza de la correlación entre las variables predictoras en un modelo de regresión. Consulte este tutorial para obtener una explicación detallada de cómo calcular e interpretar los valores de VIF.

Supuesto n. ° 4: no hay valores atípicos extremos

La regresión logística asume que no hay valores atípicos extremos u observaciones influyentes en el conjunto de datos.

Cómo verificar esta suposición: la forma más común de probar los valores atípicos extremos y las observaciones influyentes en un conjunto de datos es calcular la distancia de Cook para cada observación. Si de hecho hay valores atípicos, puede optar por (1) eliminarlos, (2) reemplazarlos con un valor como la media o la mediana, o (3) simplemente mantenerlos en el modelo pero tomar nota de esto al informar la regresión resultados.

Supuesto n. ° 5: existe una relación lineal entre las variables explicativas y el logit de la variable de respuesta

La regresión logística asume que existe una relación lineal entre cada variable explicativa y el logit de la variable de respuesta. Recuerde que el logit se define como:

Logit (p) = log (p / (1-p)) donde p es la probabilidad de un resultado positivo.

Cómo verificar esta suposición: La forma más fácil de ver si se cumple esta suposición es usar una prueba de Box-Tidwell.

Supuesto n. ° 6: el tamaño de la muestra es suficientemente grande

La regresión logística asume que el tamaño de la muestra del conjunto de datos es lo suficientemente grande como para sacar conclusiones válidas del modelo de regresión logística ajustado.

Cómo verificar este supuesto: Como regla general, debe tener un mínimo de 10 casos con el resultado menos frecuente para cada variable explicativa. Por ejemplo, si tiene 3 variables explicativas y la probabilidad esperada del resultado menos frecuente es 0,20, entonces debería tener un tamaño de muestra de al menos (10 * 3) / 0,20 = 150 .

Supuestos de regresión logística frente a regresión lineal

A diferencia de la regresión lineal, la regresión logística no requiere:

Una relación lineal entre la (s) variable (s) explicativa (s) y la variable de respuesta.
Los residuos del modelo que se distribuirán normalmente.
Los residuos tienen varianza constante, también conocida como homocedasticidad .

Relacionado: Los cuatro supuestos de la regresión lineal

Recursos adicionales

4 ejemplos de uso de la regresión logística en la vida real
Cómo realizar una regresión logística en SPSS
Cómo realizar una regresión logística en Excel
Cómo realizar una regresión logística en Stata

https://r-project.org
https://www.python.org/
https://www.stata.com/