Introducción a la regresión polinomial

Cuando tenemos un conjunto de datos con una variable predictora y una variable de respuesta , a menudo usamos regresión lineal simple para cuantificar la relación entre las dos variables.

Sin embargo, la regresión lineal simple (SLR) asume que la relación entre el predictor y la variable de respuesta es lineal. Escrito en notación matemática, SLR asume que la relación toma la forma:

Y = β 0 + β 1 X + ε

Pero en la práctica, la relación entre las dos variables en realidad puede ser no lineal e intentar utilizar la regresión lineal puede resultar en un modelo de ajuste deficiente.

Una forma de explicar una relación no lineal entre el predictor y la variable de respuesta es usar la regresión polinomial , que toma la forma:

Y = β 0 + β 1 X + β 2 X 2 +… + β h X h + ε

En esta ecuación, h se denomina grado del polinomio.

A medida que aumentamos el valor de h , el modelo puede ajustar mejor las relaciones no lineales, pero en la práctica rara vez elegimos que h sea ​​mayor que 3 o 4. Más allá de este punto, el modelo se vuelve demasiado flexible y sobreajusta los datos .

Notas técnicas

  • Aunque la regresión polinomial puede ajustarse a datos no lineales, todavía se considera una forma de regresión lineal porque es lineal en los coeficientes β 1 , β 2 ,…, β h .
  • La regresión polinomial también se puede utilizar para múltiples variables predictoras, pero esto crea términos de interacción en el modelo, lo que puede hacer que el modelo sea extremadamente complejo si se utilizan más de unas pocas variables predictoras.

Cuándo usar la regresión polinomial

Usamos la regresión polinomial cuando la relación entre un predictor y una variable de respuesta no es lineal.

Hay tres formas comunes de detectar una relación no lineal:

1. Cree una gráfica de dispersión.

La forma más sencilla de detectar una relación no lineal es crear un diagrama de dispersión de la respuesta frente a la variable predictora.

Por ejemplo, si creamos la siguiente gráfica de dispersión, podemos ver que la relación entre las dos variables es aproximadamente lineal, por lo que la regresión lineal simple probablemente funcionaría bien con estos datos.

Sin embargo, si nuestro diagrama de dispersión se parece a uno de los siguientes diagramas, entonces podríamos ver que la relación no es lineal y, por lo tanto, la regresión polinomial sería una buena idea:

2. Cree una gráfica de residuales vs. ajustada.

Otra forma de detectar la no linealidad es ajustar un modelo de regresión lineal simple a los datos y luego producir una gráfica de residuos versus valores ajustados .

Si los residuos de la gráfica se distribuyen aproximadamente de manera uniforme alrededor de cero sin un patrón claro, es probable que la regresión lineal simple sea suficiente.

Sin embargo, si los residuos muestran un patrón no lineal en el gráfico, esto es una señal de que la relación entre el predictor y la respuesta probablemente no sea lineal.

3. Calcule el R 2 del modelo.

El valor R 2 de un modelo de regresión le dice el porcentaje de la variación en la variable de respuesta que puede ser explicada por la (s) variable (s) predictoras.

Si ajusta un modelo de regresión lineal simple a un conjunto de datos y el valor R 2 del modelo es bastante bajo, esto podría ser una indicación de que la relación entre el predictor y la variable de respuesta es más compleja que una simple relación lineal.

Esto podría ser una señal de que es posible que deba probar la regresión polinomial en su lugar.

Relacionado: ¿Qué es un buen valor R cuadrado?

Cómo elegir el grado del polinomio

Un modelo de regresión polinomial tiene la siguiente forma:

Y = β 0 + β 1 X + β 2 X 2 +… + β h X h + ε

En esta ecuación, h es el grado del polinomio.

Pero, ¿cómo elegimos un valor para h ?

En la práctica, ajustamos varios modelos diferentes con diferentes valores de hy realizamos una validación cruzada de k veces para determinar qué modelo produce el error cuadrático medio (MSE) de prueba más bajo.

Por ejemplo, podemos ajustar los siguientes modelos a un conjunto de datos determinado:

  • Y = β 0 + β 1 X
  • Y = β 0 + β 1 X + β 2 X 2
  • Y = β 0 + β 1 X + β 2 X 2 + β 3 X 3
  • Y = β 0 + β 1 X + β 2 X 2 + β 3 X 3 + β 4 X 4

Luego, podemos usar la validación cruzada de k-veces para calcular el MSE de prueba de cada modelo, lo que nos dirá qué tan bien se desempeña cada modelo en datos que no ha visto antes.

La compensación de sesgo-varianza de la regresión polinomial

Existe una compensación de sesgo-varianza cuando se usa la regresión polinomial. A medida que aumentamos el grado del polinomio, el sesgo disminuye (a medida que el modelo se vuelve más flexible) pero la varianza aumenta.

Al igual que con todos los modelos de aprendizaje automático, debemos encontrar una compensación óptima entre sesgo y varianza.

En la mayoría de los casos, ayuda a aumentar el grado del polinomio hasta cierto punto, pero más allá de cierto valor, el modelo comienza a ajustarse al ruido de los datos y la prueba MSE comienza a disminuir.

Para asegurarnos de que nos ajustamos a un modelo que es flexible pero no demasiado flexible, usamos la validación cruzada de k-fold para encontrar el modelo que produce el MSE de prueba más bajo.

Cómo realizar una regresión polinomial

Los siguientes tutoriales proporcionan ejemplos de cómo realizar la regresión polinomial en diferentes softwares:

Cómo realizar una regresión polinomial en Excel
Cómo realizar una regresión polinomial en R
Cómo realizar una regresión polinomial en Python

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, es posible que desee trazar una serie de tiempo en R para visualizar cómo cambian los valores de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!