Cómo utilizar variables ficticias en el análisis de regresión

La regresión lineal es un método que podemos utilizar para cuantificar la relación entre una o más variables predictoras y una variable de respuesta .

Normalmente usamos regresión lineal con variables cuantitativas . A veces denominadas variables «numéricas», son variables que representan una cantidad medible. Ejemplos incluyen:

  • Cantidad de pies cuadrados en una casa
  • Tamaño de la población de una ciudad
  • Edad de un individuo

Sin embargo, a veces deseamos utilizar variables categóricas como variables predictoras. Estas son variables que toman nombres o etiquetas y pueden encajar en categorías. Ejemplos incluyen:

  • Color de ojos (por ejemplo, «azul», «verde», «marrón»)
  • Género (p. Ej., «Masculino», «femenino»)
  • Estado civil (por ejemplo, «casado», «soltero», «divorciado»)

Cuando se utilizan variables categóricas, no tiene sentido simplemente asignar valores como 1, 2, 3 a valores como «azul», «verde» y «marrón» porque no tiene sentido decir que el verde es dos veces tan colorido como el azul o que el marrón es tres veces más colorido que el azul.

En cambio, la solución es utilizar variables ficticias . Estas son variables que creamos específicamente para el análisis de regresión que toman uno de dos valores: cero o uno.

Variables ficticias: variables numéricas utilizadas en el análisis de regresión para representar datos categóricos que solo pueden tomar uno de dos valores: cero o uno.

El número de variables ficticias que debemos crear es igual a k -1 donde k es el número de valores diferentes que puede asumir la variable categórica.

Los siguientes ejemplos ilustran cómo crear variables ficticias para diferentes conjuntos de datos.

Ejemplo 1: crear una variable ficticia con solo dos valores

Supongamos que tenemos el siguiente conjunto de datos y nos gustaría usar el género y la edad para predecir los ingresos :

Para utilizar el género como variable predictiva en un modelo de regresión, debemos convertirlo en una variable ficticia.

Dado que actualmente es una variable categórica que puede tomar dos valores diferentes (“Masculino” o “Femenino”), solo necesitamos crear k -1 = 2-1 = 1 variable ficticia.

Para crear esta variable ficticia, podemos elegir uno de los valores (“Masculino” o “Femenino”) para representar 0 y el otro para representar 1.

En general, solemos representar el valor que ocurre con más frecuencia con un 0, que sería «Masculino» en este conjunto de datos.

Por lo tanto, así es como convertiríamos el género en una variable ficticia:

Ejemplo de variable ficticia

Luego, podríamos usar Age y Gender_Dummy como variables predictoras en un modelo de regresión.

Ejemplo 2: crear una variable ficticia con varios valores

Supongamos que tenemos el siguiente conjunto de datos y nos gustaría usar el estado civil y la edad para predecir los ingresos :

Para utilizar el estado civil como variable predictiva en un modelo de regresión, debemos convertirlo en una variable ficticia.

Dado que actualmente es una variable categórica que puede tomar tres valores diferentes (“Soltero”, “Casado” o “Divorciado”), necesitamos crear k -1 = 3-1 = 2 variables ficticias.

Para crear esta variable ficticia, podemos dejar que “Único” sea nuestro valor de referencia, ya que ocurre con mayor frecuencia. Por lo tanto, así es como convertiríamos el estado civil en variables ficticias:

Variable ficticia con tres valores

Luego, podríamos usar Edad , Casado y Divorciado como variables predictoras en un modelo de regresión.

Cómo interpretar la salida de regresión con variables ficticias

Supongamos que ajustamos un modelo de regresión lineal múltiple utilizando el conjunto de datos del ejemplo anterior con Edad , Casado y Divorciado como variables predictoras e Ingresos como variable de respuesta.

Aquí está el resultado de la regresión:

Cómo interpretar variables ficticias en la salida de regresión

La línea de regresión ajustada se define como:

Ingresos = 14,276.21 + 1,471.67 * (Edad) + 2,479.75 * (Casado) – 8,397.40 * (Divorciado)

Podemos usar esta ecuación para encontrar los ingresos estimados de una persona en función de su edad y estado civil. Por ejemplo, se estima que una persona que tiene 35 años y está casada tiene un ingreso de $ 68,264 :

Ingresos = 14,276.21 + 1,471.67 * (35) + 2,479.75 * (1) – 8,397.40 * (0) = $ 68,264

A continuación, se explica cómo interpretar los coeficientes de regresión de la tabla:

  • Intercepción: La intersección representa el ingreso promedio de una sola persona que tiene cero años. Obviamente, no puede tener cero años, por lo que no tiene sentido interpretar la intersección por sí misma en este modelo de regresión en particular.
  • Edad: Cada aumento de un año en la edad está asociado con un aumento promedio de $ 1,471.67 en ingresos. Dado que el valor p (.00) es menor que .05, la edad es un predictor estadísticamente significativo del ingreso.
  • Casado: una persona casada, en promedio, gana $ 2,479.75 más que una sola persona. Dado que el valor p (0,80) no es menor que 0,05, esta diferencia no es estadísticamente significativa.
  • Divorciado: Una persona divorciada, en promedio, gana $ 8,397.40 menos que una sola persona. Dado que el valor p (0,53) no es menor que 0,05, esta diferencia no es estadísticamente significativa.

Dado que ambas variables ficticias no fueron estadísticamente significativas, podríamos eliminar el estado civil como predictor del modelo porque no parece agregar ningún valor predictivo para los ingresos.

Recursos adicionales

Variables cualitativas frente a variables cuantitativas
La trampa de la variable ficticia
Cómo leer e interpretar una tabla de regresión
Una explicación de los valores P y la significancia estadística

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La regresión logarítmica es un tipo de regresión que se utiliza para modelar situaciones en las que el crecimiento o…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!