Introducción a la regresión de componentes principales

Uno de los problemas más comunes que encontrará al crear modelos es la multicolinealidad . Esto ocurre cuando dos o más variables predictoras en un conjunto de datos están altamente correlacionadas.

Cuando esto ocurre, un modelo dado puede ajustarse bien a un conjunto de datos de entrenamiento, pero es probable que su rendimiento sea deficiente en un nuevo conjunto de datos que nunca ha visto porque se sobreajusta al conjunto de entrenamiento.

Una forma de evitar el sobreajuste es utilizar algún tipo de método de selección de subconjuntos como:

Estos métodos intentan eliminar los predictores irrelevantes del modelo de modo que solo los predictores más importantes que son capaces de predecir la variación en la variable de respuesta queden en el modelo final.

Otra forma de evitar el sobreajuste es utilizar algún tipo de método de regularización como:

Estos métodos intentan restringir o regularizar los coeficientes de un modelo para reducir la varianza y así producir modelos que pueden generalizar bien a nuevos datos.

Un enfoque completamente diferente para lidiar con la multicolinealidad se conoce como reducción de dimensión .

Un método común de reducción de dimensiones se conoce como regresión de componentes principales , que funciona de la siguiente manera:

1. Suponga que un conjunto de datos contiene p predictores: X 1 , X 2 ,…, X p

2. Calcule Z 1 ,…, Z M para que sean las M combinaciones lineales de los p predictores originales .

  • Z m = ΣΦ jm X j para algunas constantes Φ 1m , Φ 2m , Φ pm , m = 1,…, M.
  • Z 1 es la combinación lineal de los predictores que captura la mayor varianza posible.
  • Z 2 es la siguiente combinación lineal de los predictores que captura la mayor varianza mientras es ortogonal (es decir, no correlacionada) con Z 1 .
  • Z 3 es entonces la siguiente combinación lineal de los predictores que captura la mayor varianza mientras es ortogonal a Z 2 .
  • Y así.

3. Utilice el método de mínimos cuadrados para ajustar un modelo de regresión lineal utilizando los primeros M componentes principales Z 1 ,…, Z M como predictores.

La frase reducción de dimensión proviene del hecho de que este método solo tiene que estimar los coeficientes M + 1 en lugar de los coeficientes p + 1, donde M <p.

En otras palabras, la dimensión del problema se ha reducido de p + 1 a M + 1.

En muchos casos donde la multicolinealidad está presente en un conjunto de datos, la regresión de componentes principales puede producir un modelo que se puede generalizar a nuevos datos mejor que la regresión lineal múltiple convencional .

Pasos para realizar la regresión de componentes principales

En la práctica, los siguientes pasos se utilizan para realizar la regresión de componentes principales:

1. Estandarice los predictores.

Primero, normalmente estandarizamos los datos de manera que cada variable de predicción tenga un valor medio de 0 y una desviación estándar de 1. Esto evita que un predictor sea demasiado influyente, especialmente si se mide en diferentes unidades (es decir, si X 1 se mide en pulgadas y X 2 se mide en yardas).

2. Calcule los componentes principales y realice una regresión lineal utilizando los componentes principales como predictores.

A continuación, calculamos los componentes principales y usamos el método de mínimos cuadrados para ajustar un modelo de regresión lineal utilizando los primeros M componentes principales Z 1 ,…, Z M como predictores.

3. Decida cuántos componentes principales conservará.

A continuación, usamos la validación cruzada de k-veces para encontrar el número óptimo de componentes principales para mantener en el modelo. El número “óptimo” de componentes principales que se debe mantener es típicamente el número que produce el error cuadrático medio (MSE) de prueba más bajo.

Pros y contras de la regresión de componentes principales

La regresión de componentes principales (PCR) ofrece las siguientes ventajas :

  • La PCR tiende a funcionar bien cuando los primeros componentes principales son capaces de capturar la mayor parte de la variación en los predictores junto con la relación con la variable de respuesta.
  • La PCR puede funcionar bien incluso cuando las variables predictoras están altamente correlacionadas porque produce componentes principales que son ortogonales (es decir, no correlacionados) entre sí.
  • La PCR no requiere que elija qué variables predictoras eliminar del modelo, ya que cada componente principal utiliza una combinación lineal de todas las variables predictoras.
  • La PCR se puede utilizar cuando hay más variables predictoras que observaciones, a diferencia de la regresión lineal múltiple.

Sin embargo, PCR viene con una desventaja:

  • La PCR no considera la variable de respuesta al decidir qué componentes principales conservar o eliminar. En cambio, solo considera la magnitud de la varianza entre las variables predictoras capturadas por los componentes principales. Es posible que, en algunos casos, los componentes principales con las mayores variaciones no sean capaces de predecir bien la variable de respuesta.

En la práctica, ajustamos muchos tipos diferentes de modelos (PCR, Ridge, Lasso, Regresión lineal múltiple, etc.) y utilizamos la validación cruzada de k veces para identificar el modelo que produce el MSE de prueba más bajo en datos nuevos.

En los casos en que la multicolinealidad está presente en el conjunto de datos original (que suele ser así), la PCR tiende a funcionar mejor que la regresión por mínimos cuadrados ordinarios. Sin embargo, es una buena idea ajustar varios modelos diferentes para que pueda identificar el que se generaliza mejor para los datos invisibles.

Regresión de componentes principales en R & Python

Los siguientes tutoriales muestran cómo realizar la regresión de componentes principales en R y Python:

Regresión de componentes principales en R (paso a paso)
Regresión de componentes principales en Python (paso a paso)

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Una distribución bimodal es una distribución de probabilidad con dos modos. A menudo usamos el término "moda" en las estadísticas…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!