Sesgo variable omitido: definición y ejemplos

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

El sesgo de variable omitida se produce cuando una variable explicativa relevante no se incluye en un modelo de regresión , lo que puede provocar que el coeficiente de una o más variables explicativas del modelo esté sesgado.

Una variable omitida a menudo se deja fuera de un modelo de regresión por una de dos razones:

1. Los datos de la variable simplemente no están disponibles.

2. Se desconoce el efecto de la variable explicativa sobre la variable de respuesta .

Para que la variable omitida sesgue realmente los coeficientes del modelo, se deben cumplir los dos requisitos siguientes:

1. La variable omitida debe estar correlacionada con una o más variables explicativas en el modelo.

2. La variable omitida debe correlacionarse con la variable de respuesta en el modelo.

Los efectos del sesgo variable omitido

Suponga que tenemos dos variables explicativas, A y B, y una variable de respuesta, Y. Suponga que ajustamos un modelo de regresión lineal simple con A como la única variable explicativa y dejamos B fuera del modelo.

Si B está correlacionado con A y correlacionado con Y, entonces provocará que la estimación del coeficiente de A esté sesgada. El siguiente diagrama muestra cómo la estimación del coeficiente de A estará sesgada, dependiendo de la naturaleza de la relación con B:

Sesgo de variable omitida

Ejemplo: sesgo variable omitido

Supongamos que queremos estudiar el efecto que tienen los pies cuadrados en el precio de la vivienda, por lo que ajustamos el siguiente modelo de regresión lineal simple:

Precio de la vivienda = B 0 + B 1 (pies cuadrados)

Supongamos que encontramos que el modelo estimado es:

Precio de la vivienda = 40,203.91 + 118.31 (pies cuadrados)

La forma en que interpretaríamos el coeficiente para pies cuadrados es que cada aumento adicional de una unidad en pies cuadrados está asociado con un aumento en el precio de la vivienda de $ 118,31, en promedio.

Sin embargo, supongamos que dejamos de lado la variable explicativa edad, que resulta tener una correlación muy negativa con los pies cuadrados y una correlación muy negativa con el precio de la vivienda. Esta variable debería estar en el modelo, pero no lo está. Por lo tanto, es probable que la estimación del coeficiente de pies cuadrados esté sesgada.

Con base en el hecho de que la edad está correlacionada negativamente tanto con la variable explicativa como con la variable de respuesta en el modelo, esperaríamos que la estimación del coeficiente para pies cuadrados tenga un sesgo positivo:

Sesgo positivo con sesgo de variable omitida

Suponga que encontramos datos para la edad de la vivienda y luego los incluimos en el modelo. El modelo entonces se convierte en:

Precio de la vivienda = B 0 + B 1 (pies cuadrados) + B 2 (edad)

Supongamos que encontramos que el modelo estimado es:

Precio de la vivienda = 123,426.20 + 81.06 (pies cuadrados) – 1,291.04 (edad)

Tenga en cuenta que la estimación del coeficiente de pies cuadrados se redujo significativamente, lo que significa que tenía un sesgo positivo en el modelo anterior.

La forma en que interpretaríamos el coeficiente de pies cuadrados en este modelo es que cada aumento adicional de una unidad en pies cuadrados está asociado con un aumento promedio en el precio de la vivienda de $ 81.06, asumiendo que la edad se mantiene constante.

Qué hacer con el sesgo variable omitido

Desafortunadamente, el sesgo de variable omitida ocurre a menudo en el mundo real porque generalmente hay algunas variables que deben incluirse en un modelo de regresión, pero no lo son porque los datos para ellas no están disponibles o se desconoce la relación entre ellas y la variable de respuesta.

Si es posible, debe intentar incluir todas y cada una de las variables explicativas relevantes en un modelo de regresión para que pueda comprender la verdadera relación entre las variables explicativas y la variable de respuesta.

Dejar las variables explicativas relevantes fuera de un modelo puede afectar significativamente la interpretación del modelo, como vimos en el ejemplo anterior con los precios de la vivienda.

Recursos adicionales

¿Qué es una variable al acecho?
¿Qué es una variable de confusión?

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

La distribución de Poisson es una distribución de probabilidad que se utiliza para modelar la probabilidad de que ocurra un…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!