Regresión logística (modelo Logit): una breve descripción general

Actualizado por ultima vez el 23 de marzo de 2022, por Luis Benites.

Para comprender la regresión logística (también llamada modelo logit), puede resultarle útil revisar estos temas:
La escala nominal.
¿Qué es la regresión lineal?

Para una breve mirada, consulte: Regresión logística en una imagen.

Regresión logística simple

La regresión logística simple es casi idéntica a la regresión lineal. Sin embargo, la regresión lineal usa dos medidas y la regresión logística usa una medida y una variable nominal . La variable de medida es siempre la variable independiente . Se usa cuando desea encontrar la probabilidad de obtener una determinada variable nominal cuando tiene una variable de medición particular.

Regresión Logística, ANOVA y Pruebas T de Student

Las pruebas ANOVA y T de Student también se pueden usar para analizar datos que tienen una variable nominal y una variable de medición. La regresión logística se utiliza cuando desea predecir la probabilidad de la variable nominal. Aquí hay un ejemplo para aclarar esa afirmación:

Mide el IMC de un grupo de mujeres de 50 años, luego diez años más tarde encuesta a las mujeres para ver quién tuvo un infarto de miocardio (un ataque al corazón). Puede evaluar sus datos de diferentes maneras, dependiendo de su objetivo:

  • Prueba T de Student : puede probar la hipótesis nula de que el IMC no está relacionado con el infarto de miocardio.
  • Regresión logística: puede predecir la probabilidad de que una mujer de 50 años con un IMC determinado sufra un infarto en la próxima década.

Regresión logística frente a regresión lineal

En la regresión lineal, debe tener dos medidas (x e y). En la regresión logística, su variable dependiente (su variable y) es nominal. En el ejemplo anterior, su variable y podría ser «tuvo un infarto de miocardio» frente a «no tuvo un infarto de miocardio». Sin embargo, no puedes graficar esas variables nominales en un gráfico, entonces lo que haces es graficar la probabilidad de cada variable (de 0 a 1). Por ejemplo, su estudio podría mostrar que una mujer con un IMC de 30 tiene un 4 % de probabilidades de sufrir un ataque al corazón en los próximos diez años; podría graficar eso como 30 para la variable X y 0.04 para la variable Y.

Comparación con análisis discriminante

El análisis discriminante es un método de clasificación que recibe su nombre de discriminar, el acto de reconocer una diferencia entre ciertas características. Los dos objetivos son:

  • Construcción de un método de clasificación para separar a los miembros de una población .
  • Usar el método de clasificación para asignar nuevos miembros a grupos dentro de la población.

Regresión logística

El análisis discriminante se usa cuando tiene un conjunto de grupos formados naturalmente y desea averiguar qué variables continuas discriminan entre ellos. El ejemplo más simple de DA es usar una sola variable para predecir dónde caerá un miembro en una población . Por ejemplo, usar el GPA de la escuela secundaria para predecir si un estudiante abandonará la universidad, se graduará de la universidad o se graduará con honores.

Un ejemplo más complejo: es posible que desee averiguar qué variables discriminan entre los solicitantes de crédito que tienen un riesgo alto, medio o bajo de incumplimiento. Puede recopilar datos sobre las características del titular de la tarjeta de crédito y usar esa información para determinar qué variables son los mejores predictores de si una persona en particular tendrá un riesgo alto, medio o bajo. A continuación, podrían asignarse nuevas observaciones (en este caso, nuevos solicitantes) a un grupo en particular.

Además de las industrias crediticia y bancaria, otros usos del análisis discriminante incluyen:

A menudo se prefiere la regresión logística al análisis discriminante, ya que puede manejar variables categóricas y variables continuas . La regresión logística tampoco tiene tantas suposiciones asociadas. Por ejemplo, el Análisis Discriminante requiere las suposiciones de igual varianza-covarianza dentro de cada grupo, normalidad multivariada y los datos deben estar relacionados linealmente. La regresión logística no tiene estos requisitos.

Artículos relacionados

Prueba de bondad de ajuste de Hosmer-Lemeshow .
¿Qué son las probabilidades de registro?

Visite nuestro canal de YouTube para ver cientos de videos sobre estadística elemental y probabilidad.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Qué es la desviación estándar absoluta? No hay una definición clara para el término "desviación estándar absoluta". A veces puede…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!