Cómo utilizar variables ficticias en el análisis de regresión

Contenido de este artículo

0.1 Ejemplo 1: crear una variable ficticia con solo dos valores
0.2 Ejemplo 2: crear una variable ficticia con varios valores
0.3 Cómo interpretar la salida de regresión con variables ficticias
0.4 Recursos adicionales

1 Redactor del artículo
2 ¿Te hemos ayudado?

Puedes opinar sobre este contenido:

La regresión lineal es un método que podemos utilizar para cuantificar la relación entre una o más variables predictoras y una variable de respuesta .

Normalmente usamos regresión lineal con variables cuantitativas . A veces denominadas variables «numéricas», son variables que representan una cantidad medible. Ejemplos incluyen:

Cantidad de pies cuadrados en una casa
Tamaño de la población de una ciudad
Edad de un individuo

Sin embargo, a veces deseamos utilizar variables categóricas como variables predictoras. Estas son variables que toman nombres o etiquetas y pueden encajar en categorías. Ejemplos incluyen:

Color de ojos (por ejemplo, «azul», «verde», «marrón»)
Género (p. Ej., «Masculino», «femenino»)
Estado civil (por ejemplo, «casado», «soltero», «divorciado»)

Cuando se utilizan variables categóricas, no tiene sentido simplemente asignar valores como 1, 2, 3 a valores como «azul», «verde» y «marrón» porque no tiene sentido decir que el verde es dos veces tan colorido como el azul o que el marrón es tres veces más colorido que el azul.

En cambio, la solución es utilizar variables ficticias . Estas son variables que creamos específicamente para el análisis de regresión que toman uno de dos valores: cero o uno.

Variables ficticias: variables numéricas utilizadas en el análisis de regresión para representar datos categóricos que solo pueden tomar uno de dos valores: cero o uno.

El número de variables ficticias que debemos crear es igual a k -1 donde k es el número de valores diferentes que puede asumir la variable categórica.

Los siguientes ejemplos ilustran cómo crear variables ficticias para diferentes conjuntos de datos.

Ejemplo 1: crear una variable ficticia con solo dos valores

Supongamos que tenemos el siguiente conjunto de datos y nos gustaría usar el género y la edad para predecir los ingresos :

Para utilizar el género como variable predictiva en un modelo de regresión, debemos convertirlo en una variable ficticia.

Dado que actualmente es una variable categórica que puede tomar dos valores diferentes (“Masculino” o “Femenino”), solo necesitamos crear k -1 = 2-1 = 1 variable ficticia.

Para crear esta variable ficticia, podemos elegir uno de los valores (“Masculino” o “Femenino”) para representar 0 y el otro para representar 1.

En general, solemos representar el valor que ocurre con más frecuencia con un 0, que sería «Masculino» en este conjunto de datos.

Por lo tanto, así es como convertiríamos el género en una variable ficticia:

Luego, podríamos usar Age y Gender_Dummy como variables predictoras en un modelo de regresión.

Ejemplo 2: crear una variable ficticia con varios valores

Supongamos que tenemos el siguiente conjunto de datos y nos gustaría usar el estado civil y la edad para predecir los ingresos :

Para utilizar el estado civil como variable predictiva en un modelo de regresión, debemos convertirlo en una variable ficticia.

Dado que actualmente es una variable categórica que puede tomar tres valores diferentes (“Soltero”, “Casado” o “Divorciado”), necesitamos crear k -1 = 3-1 = 2 variables ficticias.

Para crear esta variable ficticia, podemos dejar que “Único” sea nuestro valor de referencia, ya que ocurre con mayor frecuencia. Por lo tanto, así es como convertiríamos el estado civil en variables ficticias:

Luego, podríamos usar Edad , Casado y Divorciado como variables predictoras en un modelo de regresión.

Cómo interpretar la salida de regresión con variables ficticias

Supongamos que ajustamos un modelo de regresión lineal múltiple utilizando el conjunto de datos del ejemplo anterior con Edad , Casado y Divorciado como variables predictoras e Ingresos como variable de respuesta.

Aquí está el resultado de la regresión:

La línea de regresión ajustada se define como:

Ingresos = 14,276.21 + 1,471.67 * (Edad) + 2,479.75 * (Casado) – 8,397.40 * (Divorciado)

Podemos usar esta ecuación para encontrar los ingresos estimados de una persona en función de su edad y estado civil. Por ejemplo, se estima que una persona que tiene 35 años y está casada tiene un ingreso de $ 68,264 :

Ingresos = 14,276.21 + 1,471.67 * (35) + 2,479.75 * (1) – 8,397.40 * (0) = $ 68,264

A continuación, se explica cómo interpretar los coeficientes de regresión de la tabla:

Intercepción: La intersección representa el ingreso promedio de una sola persona que tiene cero años. Obviamente, no puede tener cero años, por lo que no tiene sentido interpretar la intersección por sí misma en este modelo de regresión en particular.
Edad: Cada aumento de un año en la edad está asociado con un aumento promedio de $ 1,471.67 en ingresos. Dado que el valor p (.00) es menor que .05, la edad es un predictor estadísticamente significativo del ingreso.
Casado: una persona casada, en promedio, gana $ 2,479.75 más que una sola persona. Dado que el valor p (0,80) no es menor que 0,05, esta diferencia no es estadísticamente significativa.
Divorciado: Una persona divorciada, en promedio, gana $ 8,397.40 menos que una sola persona. Dado que el valor p (0,53) no es menor que 0,05, esta diferencia no es estadísticamente significativa.

Dado que ambas variables ficticias no fueron estadísticamente significativas, podríamos eliminar el estado civil como predictor del modelo porque no parece agregar ningún valor predictivo para los ingresos.

Recursos adicionales

Variables cualitativas frente a variables cuantitativas
La trampa de la variable ficticia
Cómo leer e interpretar una tabla de regresión
Una explicación de los valores P y la significancia estadística

https://r-project.org
https://www.python.org/
https://www.stata.com/

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Ejemplo 1: crear una variable ficticia con solo dos valores

Ejemplo 2: crear una variable ficticia con varios valores

Cómo interpretar la salida de regresión con variables ficticias

Recursos adicionales

Redactor del artículo

¿Te hemos ayudado?

Artículos relacionados:

Deja un comentario Cancelar la respuesta

You have Successfully Subscribed!