Cómo interpretar la estadística C de un modelo de regresión logística

Este tutorial proporciona una explicación simple de cómo interpretar la estadística c de un modelo de regresión logística.

¿Qué es la regresión logística?

La regresión logística es un método estadístico que utilizamos para ajustar un modelo de regresión cuando la variable de respuesta es binaria. A continuación, se muestran algunos ejemplos de cuándo podemos usar la regresión logística:

  • Queremos saber cómo el ejercicio, la dieta y el peso afectan la probabilidad de sufrir un ataque cardíaco. La variable de respuesta es un ataque cardíaco y tiene dos resultados potenciales: ocurre o no ocurre un ataque cardíaco.
  • Queremos saber cómo el GPA, el puntaje ACT y la cantidad de clases AP tomadas afectan la probabilidad de ser aceptado en una universidad en particular. La variable de respuesta es la aceptación y tiene dos posibles resultados: aceptado o no aceptado.
  • Queremos saber si el número de palabras y el título del correo electrónico afectan la probabilidad de que un correo electrónico sea spam. La variable de respuesta es spam y tiene dos posibles resultados: spam o no spam.

Tenga en cuenta que las variables predictoras pueden ser numéricas o categóricas; lo importante es que la variable de respuesta sea binaria. Cuando este es el caso, la regresión logística es un modelo apropiado para explicar la relación entre las variables predictoras y la variable de respuesta.

Cómo evaluar la bondad de ajuste de un modelo de regresión logística

Una vez que hemos ajustado un modelo de regresión logística a un conjunto de datos, a menudo nos interesa saber qué tan bien se ajusta el modelo a los datos. Específicamente, estamos interesados ​​en qué tan bien el modelo es capaz de predecir con precisión los resultados positivos y negativos.

La sensibilidad se refiere a la probabilidad de que el modelo prediga un resultado positivo para una observación cuando de hecho el resultado es positivo.

La especificidad se refiere a la probabilidad de que el modelo prediga un resultado negativo para una observación cuando en realidad el resultado es negativo.

Un modelo de regresión logística es perfecto para clasificar observaciones si tiene una sensibilidad del 100% y una especificidad del 100%, pero en la práctica esto casi nunca ocurre.

Una vez que ajustamos el modelo de regresión logística, se puede usar para calcular la probabilidad de que una observación dada tenga un resultado positivo, con base en los valores de las variables predictoras.

Para determinar si una observación debe clasificarse como positiva, podemos elegir un punto de corte tal que las observaciones con una probabilidad ajustada por encima del punto de corte se clasifiquen como positivas y cualquier observación con una probabilidad ajustada por debajo del punto de corte se clasifiquen como negativas. .

Por ejemplo, suponga que elegimos el punto de corte 0.5. Esto significa que se pronosticará que cualquier observación con una probabilidad ajustada mayor que 0,5 tendrá un resultado positivo, mientras que cualquier observación con una probabilidad ajustada menor o igual a 0,5 tendrá un resultado negativo.

Trazado de la curva ROC

Una de las formas más comunes de visualizar la sensibilidad frente a la especificidad de un modelo es trazando una curva ROC (Receiver Operating Characteristic) , que es un gráfico de los valores de sensibilidad frente a 1-especificidad como el valor del punto de corte. el punto se mueve de 0 a 1:

Curva ROC en R

Un modelo con alta sensibilidad y alta especificidad tendrá una curva ROC que abraza la esquina superior izquierda del gráfico. Un modelo con baja sensibilidad y baja especificidad tendrá una curva cercana a la línea diagonal de 45 grados.

El AUC (área bajo la curva) nos da una idea de qué tan bien el modelo es capaz de distinguir entre resultados positivos y negativos. El AUC puede variar de 0 a 1. Cuanto mayor sea el AUC, mejor será el modelo para clasificar correctamente los resultados.

Esto significa que un modelo con una curva ROC que abraza la esquina superior izquierda del gráfico tendría un área alta debajo de la curva y, por lo tanto, sería un modelo que clasifica correctamente los resultados. Por el contrario, un modelo con una curva ROC que abraza la línea diagonal de 45 grados tendría un área baja debajo de la curva y, por lo tanto, sería un modelo que no clasifica los resultados correctamente.

Comprender la estadística C

El estadístico c , también conocido como estadístico de concordancia , es igual al AUC (área bajo la curva) y tiene las siguientes interpretaciones:

  • Un valor por debajo de 0,5 indica un modelo deficiente.
  • Un valor de 0,5 indica que el modelo no clasifica mejor los resultados que el azar.
  • Cuanto más cerca esté el valor de 1, mejor será el modelo para clasificar correctamente los resultados.
  • Un valor de 1 significa que el modelo es perfecto para clasificar los resultados.

Por lo tanto, un estadístico c nos da una idea de qué tan bueno es un modelo para clasificar correctamente los resultados.

En un entorno clínico, es posible calcular la estadística c tomando todos los pares posibles de individuos que consisten en un individuo que experimentó un resultado positivo y un individuo que experimentó un resultado negativo. Luego, el estadístico c se puede calcular como la proporción de dichos pares en los que el individuo que experimentó un resultado positivo tenía una probabilidad pronosticada más alta de experimentar el resultado que el individuo que no experimentó el resultado positivo.

Por ejemplo, supongamos que ajustamos un modelo de regresión logística utilizando variables predictoras como la edad y la presión arterial para predecir la probabilidad de un ataque cardíaco.

Para encontrar la estadística c del modelo, pudimos identificar todos los pares posibles de individuos que consisten en un individuo que experimentó un ataque cardíaco y un individuo que no experimentó un ataque cardíaco. Luego, la estadística c se puede calcular como la proporción de esos pares en los que la persona que experimentó el ataque cardíaco tenía una probabilidad pronosticada más alta de experimentar un ataque cardíaco en comparación con la persona que no experimentó el ataque cardíaco.

Conclusión

En este artículo, aprendimos lo siguiente:

  • La regresión logística es un método estadístico que utilizamos para ajustar un modelo de regresión cuando la variable de respuesta es binaria.
  • Para evaluar la bondad de ajuste de un modelo de regresión logística, podemos observar la sensibilidad y la especificidad , que nos dicen qué tan bien el modelo es capaz de clasificar los resultados correctamente.
  • Para visualizar la sensibilidad y la especificidad, podemos crear una curva ROC .
  • El AUC (área bajo la curva) indica qué tan bien el modelo es capaz de clasificar los resultados correctamente. Cuando una curva ROC abraza la esquina superior izquierda de la gráfica, esto es una indicación de que el modelo es bueno para clasificar los resultados correctamente.
  • La estadística c es igual al AUC (área bajo la curva) y también se puede calcular tomando todos los pares posibles de individuos que consisten en un individuo que experimentó un resultado positivo y un individuo que experimentó un resultado negativo. Entonces, el estadístico c es la proporción de dichos pares en los que el individuo que experimentó un resultado positivo tenía una probabilidad pronosticada más alta de experimentar el resultado que el individuo que no experimentó el resultado positivo.
  • Cuanto más cerca esté un estadístico c de 1, mejor podrá un modelo clasificar los resultados correctamente.
  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Introducción Supongamos que tenemos una matriz A de 2 × 2 , que tiene 2 filas y 2 columnas: Supongamos…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!