Variable instrumental: definición y descripción general

Actualizado por ultima vez el 16 de diciembre de 2021, por Luis Benites.

¿Qué es una variable instrumental?

Una variable instrumental (a veces llamada variable «instrumento») es una tercera variable , Z, que se usa en el análisis de regresión cuando tiene variables endógenas, variables que están influenciadas por otras variables en el modelo. En otras palabras, lo usa para tener en cuenta el comportamiento inesperado entre las variables. El uso de una variable instrumental para identificar la correlación oculta (no observada) le permite ver la verdadera correlación entre la variable explicativa y la variable de respuesta , Y.

Z está correlacionado con la variable explicativa (X) y no correlacionado con el término de error , ε, ( ¿Qué es ε? ) en la ecuación:
Y = Xβ + ε.

Las variables instrumentales se usan ampliamente en la econometría, una rama de la economía que usa estadísticas para describir sistemas económicos y, a veces, se ven en otros campos como las ciencias de la salud y la epidemiología.

Ejemplo de una variable instrumental

Supongamos que tiene dos variables correlacionadas que desea realizar una regresión: X e Y. Su correlación podría describirse mediante una tercera variable Z, que está asociada con X de alguna manera. Z también está asociado con Y, pero solo a través de la asociación directa de Y con X. Por ejemplo, supongamos que desea investigar el vínculo entre la depresión (X) y el tabaquismo (Y). La falta de oportunidades laborales (Z) podría conducir a la depresión, pero solo se asocia con el tabaquismo a través de su asociación con la depresión (es decir, no existe una correlación directa entre la falta de oportunidades laborales y el tabaquismo). Esta tercera variable, Z (falta de oportunidades laborales), generalmente se puede utilizar como una variable instrumental si se puede medir y se puede dar cuenta de su comportamiento.

¿Qué es la regresión de variables instrumentales?

La regresión de variables instrumentales (IV) básicamente divide su variable explicativa en dos partes: una parte que podría estar correlacionada con ε y una parte que probablemente no lo esté. Al aislar la parte sin correlación, es posible estimar β en la ecuación de regresión :
Y i = β 0 + β 1 X i + ε i .

Este tipo de regresión puede controlar las amenazas a la validez interna , como:

En esencia, IV se usa cuando sus variables están relacionadas de alguna manera; Si tiene algún tipo de correlación entre variables (por ejemplo, correlación bidireccional), entonces no puede usar los métodos más comunes como mínimos cuadrados ordinarios , porque uno de los requisitos de esos métodos es que las variables no están correlacionadas.

Encontrar variables instrumentales

La regresión IV no es una solución fácil para los problemas de confusión u otros; En la vida real, las variables instrumentales pueden ser difíciles de encontrar y, de hecho, pueden no existir en absoluto. No puede usar los datos reales para encontrar IV (p. ej., no puede realizar una regresión para identificar ninguno); debe confiar en su conocimiento sobre la estructura del modelo y la teoría detrás de su experimento (p. ej., teoría económica). Al buscar IV, tenga en cuenta que Z debe ser:

  • Exógeno : no afectado por otras variables del sistema (es decir, Cov(z,ε) = 0). Esto no se puede probar directamente; tiene que usar su conocimiento del sistema para determinar si su sistema tiene variables exógenas o no.
  • Correlacionado con X , una variable explicativa endógena (es decir, Cov(Z,X) ≠ 0). Una correlación muy significativa se llama una primera etapa fuerte . Las correlaciones débiles pueden dar lugar a estimaciones engañosas de parámetros y errores estándar .

Un par de ideas para encontrar IV: si están disponibles, podría usar dos fuentes de datos diferentes para sus variables instrumentales, o podría recopilar datos longitudinales y usarlos. Si sabe que una variable mediadora está provocando el efecto de X e Y, puede utilizarla como variable instrumental.

Gráficos causales

Los gráficos causales se pueden usar para delinear la estructura de su modelo e identificar posibles IV.

Suponga que desea estimar el efecto de un programa de asesoramiento sobre la depresión de personas mayores (medido por una escala de calificación como la HAM-D ). La relación entre asistir a la consejería y la puntuación en la HAM-D puede confundirse por varios factores. Por ejemplo, las personas que asisten a sesiones de consejería pueden preocuparse más por mejorar su salud, o pueden tener una red de apoyo que los anime a ir a consejería. La proximidad del hogar del paciente al programa de consejería es una variable instrumental potencial.

variable instrumental

La proximidad es un IV potencial en este modelo.

Sin embargo, ¿qué sucede si el centro de asesoramiento está ubicado dentro de un centro comunitario para personas mayores? La proximidad puede hacer que las personas mayores pasen tiempo socializando o practicando un pasatiempo, lo que podría mejorar sus puntajes HAM-D. El gráfico causal de la Figura 2 muestra que Proximity no se puede usar como IV porque está conectado a la puntuación de depresión a través de la ruta Proximity → Community Center Hours → HAM-D Score. Sin embargo, puede controlar las Horas del Centro Comunitario agregándolo como una covariable ; Si lo hace, entonces la Proximidad se puede usar como un IV, ya que la Proximidad está separada del puntaje HAM-D, dado el horario del centro comunitario.
ivs2

A continuación, suponga que es más probable que los extrovertidos pasen más tiempo en el centro comunitario y, en general, son más felices que los introvertidos. Esto se muestra en el siguiente gráfico: El horario del centro comunitario es una variable colisionadora ; acondicionado sobre él se abre un camino bidireccional parcial Proximidad → Horario del Centro Comunitario → HAM-D. Esto significa que Proximity no se puede usar como IV.
ivs3

Como paso final para este ejemplo, supongamos que descubre que el horario del centro comunitario no afecta los puntajes HAM-D porque las personas que no socializan en el centro comunitario en realidad socializan en otros lugares. Esto se muestra en el siguiente gráfico: Si no controla el horario del centro comunitario y lo elimina como una covariable, entonces puede usar Proximity nuevamente como IV.
ivs4

Referencias

Gonick, L. (1993). La guía de dibujos animados de estadísticas . Harper Perennial.
Lindström, D. (2010). Schaum’s Easy Outline of Statistics , segunda edición (Schaum’s Easy Outlines) 2ª edición. Educación McGraw-Hill
Vogt, WP (2005). Diccionario de estadística y metodología: una guía no técnica para las ciencias sociales . SABIO.
Wheelan, C. (2014). Estadísticas desnudas . WW Norton y compañía

Siguiente: : Instrumentos Débiles .

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Qué es el Método de Ward? El método de Ward (también conocido como método de varianza mínima o método de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!