¿Qué es una variable de confusión? (Definición y ejemplo)

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

En cualquier experimento, hay dos variables principales:

La variable independiente: la variable que un experimentador cambia o controla para que pueda observar los efectos sobre la variable dependiente.

La variable dependiente: la variable que se mide en un experimento que es «dependiente» de la variable independiente.

Los investigadores suelen estar interesados ​​en comprender cómo los cambios en la variable independiente afectan a la variable dependiente.

Sin embargo, en ocasiones existe una tercera variable que no se tiene en cuenta que puede afectar la relación entre las dos variables en estudio.

Variable de confusión

Este tipo de variable se conoce como variable de confusión y puede confundir los resultados de un estudio y hacer que parezca que existe algún tipo de relación de causa y efecto entre dos variables que en realidad no existe.

Variable de confusión: una variable que no se incluye en un experimento, pero que afecta la relación entre las dos variables en un experimento.

Este tipo de variable puede confundir los resultados de un experimento y dar lugar a hallazgos poco fiables.

Por ejemplo, suponga que un investigador recopila datos sobre las ventas de helados y los ataques de tiburones y encuentra que las dos variables están altamente correlacionadas. ¿Significa esto que el aumento de las ventas de helados provoca más ataques de tiburones?

Eso es improbable. La causa más probable es la temperatura variable de confusión . Cuando hace más calor afuera, más personas compran helados y más personas van al océano.

Ejemplo de variable de confusión

Requisitos para las variables de confusión

Para que una variable sea una variable de confusión, debe cumplir con los siguientes requisitos:

1. Debe estar correlacionado con la variable independiente.

En el ejemplo anterior, la temperatura se correlacionó con la variable independiente de ventas de helados. En particular, las temperaturas más cálidas se asocian con mayores ventas de helados y las temperaturas más frías se asocian con menores ventas.

2. Debe tener una relación causal con la variable dependiente.

En el ejemplo anterior, la temperatura tuvo un efecto causal directo sobre el número de ataques de tiburones. En particular, las temperaturas más cálidas hacen que más personas ingresen al océano, lo que aumenta directamente la probabilidad de que ocurran ataques de tiburones.

¿Por qué son problemáticas las variables de confusión?

Las variables de confusión son problemáticas por dos razones:

1. Las variables de confusión pueden hacer parecer que existen relaciones de causa y efecto cuando no es así.

En nuestro ejemplo anterior, la variable de confusión de temperatura hizo que pareciera que existía una relación de causa y efecto entre las ventas de helados y los ataques de tiburones.

Sin embargo, sabemos que las ventas de helados no provocan ataques de tiburones. La variable confusa de la temperatura simplemente lo hizo parecer de esta manera.

2. Las variables de confusión pueden enmascarar la verdadera relación de causa y efecto entre las variables.

Supongamos que estamos estudiando la capacidad del ejercicio para reducir la presión arterial. Una posible variable de confusión es el peso inicial, que se correlaciona con el ejercicio y tiene un efecto causal directo sobre la presión arterial.

Si bien el aumento de ejercicio puede provocar una reducción de la presión arterial, el peso inicial de una persona también tiene un gran impacto en la relación entre estas dos variables.

Variables de confusión y validez interna

En términos técnicos, las variables de confusión afectan la validez interna de un estudio, que se refiere a la validez de atribuir cualquier cambio en la variable dependiente a cambios en la variable independiente.

Cuando existen variables de confusión, no siempre podemos decir con total confianza que los cambios que observamos en la variable dependiente son un resultado directo de los cambios en la variable independiente.

Cómo reducir el efecto de las variables de confusión

Hay varias formas de reducir el efecto de las variables de confusión, incluidos los siguientes métodos:

1. Asignación aleatoria

La asignación aleatoria se refiere al proceso de asignación aleatoria de individuos en un estudio a un grupo de tratamiento o un grupo de control.

Por ejemplo, supongamos que queremos estudiar el efecto de una nueva píldora sobre la presión arterial. Si reclutamos a 100 personas para participar en el estudio, entonces podríamos usar un generador de números aleatorios para asignar al azar a 50 personas a un grupo de control (sin píldora) y 50 personas a un grupo de tratamiento (nueva píldora).

Al utilizar la asignación aleatoria, aumentamos las posibilidades de que los dos grupos tengan características aproximadamente similares, lo que significa que cualquier diferencia que observemos entre los dos grupos se puede atribuir al tratamiento.

Esto significa que el estudio debe tener validez interna ; es válido atribuir cualquier diferencia en la presión arterial entre los grupos a la píldora en sí, en contraposición a las diferencias entre los individuos en los grupos.

2. Bloqueo

El bloqueo se refiere a la práctica de dividir a los individuos en un estudio en «bloques» basados ​​en algún valor de una variable de confusión para eliminar el efecto de la variable de confusión.

Por ejemplo, suponga que los investigadores quieren comprender el efecto que tiene una nueva dieta sobre la reducción de peso. La variable independiente es la nueva dieta y la variable dependiente es la cantidad de peso perdido.

Sin embargo, una variable de confusión que probablemente provocará variaciones en la pérdida de peso es el género . Es probable que el sexo de un individuo afecte la cantidad de peso que perderá, independientemente de si la nueva dieta funciona o no.

Una forma de manejar este problema es colocar a las personas en uno de dos bloques:

  • Masculino
  • Mujer

Luego, dentro de cada bloque, asignaríamos individuos al azar a uno de dos tratamientos:

  • Una nueva dieta
  • Una dieta estándar

Al hacer esto, la variación dentro de cada bloque sería mucho menor en comparación con la variación entre todos los individuos y podríamos comprender mejor cómo la nueva dieta afecta la pérdida de peso mientras se controla el género.

3. Emparejamiento

Un diseño de pares emparejados es un tipo de diseño experimental en el que «emparejamos» individuos en función de los valores de posibles variables de confusión.

Por ejemplo, suponga que los investigadores quieren saber cómo una nueva dieta afecta la pérdida de peso en comparación con una dieta estándar. Dos posibles variables de confusión en esta situación son la edad y el sexo .

Para tener en cuenta esto, los investigadores reclutan a 100 sujetos y luego los agrupan en 50 pares según su edad y sexo. Por ejemplo:

  • Un hombre de 25 años se emparejará con otro hombre de 25 años, ya que «coinciden» en términos de edad y sexo.
  • Una mujer de 30 años se emparejará con otra mujer de 30 años, ya que también coinciden en edad y sexo, y así sucesivamente.

Luego, dentro de cada par, un sujeto será asignado al azar para seguir la nueva dieta durante 30 días y el otro sujeto será asignado para seguir la dieta estándar durante 30 días.

Al final de los 30 días, los investigadores medirán la pérdida de peso total de cada sujeto.

Al utilizar este tipo de diseño, los investigadores pueden estar seguros de que cualquier diferencia en la pérdida de peso se puede atribuir al tipo de dieta utilizada en lugar de las variables de confusión edad y sexo .

Este tipo de diseño tiene algunos inconvenientes, que incluyen:

1. Perder dos sujetos si uno abandona. Si un sujeto decide abandonar el estudio, en realidad pierde dos sujetos porque ya no tiene un par completo.

2. Lleva mucho tiempo encontrar coincidencias . Puede llevar bastante tiempo encontrar sujetos que coincidan en determinadas variables, como el sexo y la edad.

3. Imposible hacer coincidir los sujetos a la perfección . No importa cuánto lo intente, siempre habrá alguna variación dentro de los temas en cada par.

Sin embargo, si un estudio tiene los recursos disponibles para implementar este diseño, puede ser muy eficaz para eliminar los efectos de las variables de confusión.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

La distancia de Mahalanobis es la distancia entre dos puntos en un espacio multivariado. A menudo se usa para encontrar…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!