Contenido de este artículo
- 0
- 0
- 0
- 0
La regresión binomial negativa y la regresión de Poisson son dos tipos de modelos de regresión que son apropiados para usar cuando la variable de respuesta está representada por resultados de conteo discreto.
A continuación, se muestran algunos ejemplos de variables de respuesta que representan resultados de recuentos discretos:
- La cantidad de estudiantes que se gradúan de un programa determinado.
- El número de accidentes de tráfico en una determinada intersección.
- El número de participantes que terminan un maratón.
- El número de devoluciones en un mes determinado en una tienda minorista.
Si la varianza es aproximadamente igual a la media, entonces un modelo de regresión de Poisson generalmente se ajusta bien a un conjunto de datos.
Sin embargo, si la varianza es significativamente mayor que la media, entonces un modelo de regresión binomial negativa generalmente puede ajustar mejor los datos.
Hay dos técnicas que podemos usar para determinar si la regresión de Poisson o la regresión binomial negativa es más apropiada para un conjunto de datos dado:
1. Parcelas residuales
Podemos crear un gráfico de residuos de los residuos estandarizados frente a los valores predichos de un modelo de regresión.
Si la mayoría de los residuos estandarizados se encuentran dentro del rango de -2 y 2, entonces probablemente sea apropiado un modelo de regresión de Poisson.
Sin embargo, si muchos residuos quedan fuera de este rango, es probable que un modelo de regresión binomial negativa proporcione un mejor ajuste.
2. Prueba de razón de verosimilitud
Podemos ajustar un modelo de regresión de Poisson y un modelo de regresión binomial negativo al mismo conjunto de datos y luego realizar una prueba de razón de verosimilitud.
Si el valor p de la prueba es menor que algún nivel de significancia (por ejemplo, 0.05), entonces podemos concluir que el modelo de regresión binomial negativa ofrece un ajuste significativamente mejor.
El siguiente ejemplo muestra cómo utilizar ambas técnicas en R para determinar si es mejor utilizar un modelo de regresión de Poisson o de regresión binomial negativa para un conjunto de datos determinado.
Ejemplo: regresión binomial negativa frente a regresión de Poisson
Supongamos que queremos saber cuántas becas ofrece un jugador de béisbol de la escuela secundaria en un condado determinado según su división escolar («A», «B» o «C») y su puntaje en el examen de ingreso a la universidad (medido de 0 a 100 ).
Utilice los siguientes pasos para determinar si un modelo de regresión binomial negativo o un modelo de regresión de Poisson ofrece un mejor ajuste a los datos.
Paso 1: crear los datos
El siguiente código crea el conjunto de datos con el que trabajaremos, que incluye datos sobre 1,000 jugadores de béisbol:
#Haga que este conjunto de ejemplo sea reproducible . semilla (1) #create dataset data <- data. frame (ofrece = c (rep (0, 700), rep (1, 100), rep (2, 100), rep (3, 70), rep (4, 30)), división = muestra (c (' A ', ' B ', ' C '), 100, reemplazar = VERDADERO ), examen = c (runif (700, 60, 90), runif (100, 65, 95), runif (200, 75, 95))) #ver las primeras seis filas del encabezado del conjunto de datos (datos) ofrece examen de división 1 0 A 66.22635 2 0 C 66.85974 3 0 A 77,87136 4 0 B 77.24617 5 0 A 62.31193 6 0 C 61.06622
Paso 2: Ajustar un modelo de regresión de Poisson y un modelo de regresión binomial negativa
El siguiente código muestra cómo ajustar un modelo de regresión de Poisson y un modelo de regresión binomial negativa a los datos:
#fit modelo de regresión de Poisson p_model <- glm (ofrece ~ división + examen, familia = ' poisson ', datos = datos) #fit biblioteca de modelos de regresión binomial negativa (MASS) nb_model <- glm. nb (ofrece ~ división + examen, datos = datos)
Paso 3: crear parcelas residuales
El siguiente código muestra cómo producir gráficos residuales para ambos modelos.
# Gráfica residual para regresión de Poisson p_res <- resid (p_model) plot (ajustado (p_model), p_res, col = ' steelblue ', pch = 16, xlab = ' Ofertas previstas ', ylab = ' Residuos estandarizados ', main = ' Poisson ') abline (0,0) # Gráfica residual para regresión binomial negativa nb_res <- resid (nb_model) plot (ajustado (nb_model), nb_res, col = ' steelblue ', pch = 16, xlab = ' Ofertas previstas ', ylab = ' Residuos estandarizados ', main = ' Binomio negativo ') abline (0,0)
En los gráficos podemos ver que los residuos están más dispersos para el modelo de regresión de Poisson (observe que algunos residuos se extienden más allá de 3) en comparación con el modelo de regresión binomial negativa.
Esta es una señal de que es probable que un modelo de regresión binomial negativa sea más apropiado ya que los residuos de ese modelo son más pequeños.
Paso 4: Realice una prueba de razón de verosimilitud
Por último, podemos realizar una prueba de razón de verosimilitud para determinar si existe una diferencia estadísticamente significativa en el ajuste de los dos modelos de regresión:
pchisq (2 * ( logLik (nb_model) - logLik (p_model)), gl = 1, cola . inferior = FALSO ) 'log Lik.' 3.508072e-29 (gl = 5)
El valor p de la prueba resulta ser 3.508072e-29 , que es significativamente menor que 0.05.
Por lo tanto, concluiríamos que el modelo de regresión binomial negativa ofrece un ajuste significativamente mejor a los datos en comparación con el modelo de regresión de Poisson.
Recursos adicionales
Introducción a la distribución binomial negativa
Introducción a la distribución de Poisson
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: