Cómo calcular las estadísticas de apalancamiento en R

Actualizado por ultima vez el 7 de mayo de 2021, por .

En estadística, una observación se considera un valor atípico si tiene un valor para la variable de respuesta que es mucho mayor que el resto de las observaciones del conjunto de datos.

De manera similar, se considera que una observación tiene un alto apalancamiento si tiene un valor (o valores) para las variables predictoras que son mucho más extremos en comparación con el resto de las observaciones en el conjunto de datos.

Uno de los primeros pasos en cualquier tipo de análisis es observar más de cerca las observaciones que tienen un alto apalancamiento, ya que podrían tener un gran impacto en los resultados de un modelo determinado.

Este tutorial muestra un ejemplo paso a paso de cómo calcular y visualizar el apalancamiento para cada observación en un modelo en R.

Paso 1: crear un modelo de regresión

Primero, crearemos un modelo de regresión lineal múltiple utilizando el conjunto de datos mtcars integrado en R:

#cargar el conjunto de datos
datos (mtcars)

#ajustar un modelo de regresión
modelo <- lm (mpg ~ disp + hp, data = mtcars)

#ver resumen de
 resumen del modelo (modelo)

Coeficientes:
             Estimar Std. Valor t de error Pr (> | t |)    
(Intercepción) 30.735904 1.331566 23.083 <2e-16 ***
disp -0.030346 0.007405 -4.098 0.000306 ***
CV -0,024840 0,013385 -1,856 0,073679.  
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

Error estándar residual: 3,127 en 29 grados de libertad
R cuadrado múltiple: 0,7482, R cuadrado ajustado: 0,7309 
Estadístico F: 43,09 en 2 y 29 DF, valor de p: 2,062e-09

Paso 2: Calcule el apalancamiento para cada observación

A continuación, usaremos la función hatvalues ​​() para calcular el apalancamiento para cada observación en el modelo:

#calcular el apalancamiento para cada observación en el modelo
 hats <- as . datos . frame (hatvalues ​​(modelo))

#muestra las estadísticas de apalancamiento para cada sombrero de observación


                    hatvalues ​​(modelo)
Mazda RX4 0.04235795
Mazda RX4 Wag 0.04235795
Datsun 710 0.06287776
Hornet 4 Drive 0.07614472
Hornet Sportabout 0.08097817
Valiente 0.05945972
Duster 360 0.09828955
Merc 240D 0,08816960
Merc 230 0.05102253
Merc 280 0,03990060
Merc 280C 0,03990060
Merc 450SE 0,03890159
Merc 450SL 0.03890159
Merc 450SLC 0,03890159
Cadillac Fleetwood 0.19443875
Lincoln Continental 0.16042361
Chrysler Imperial 0.12447530
Fiat 128 0.08346304
Honda Cívico 0.09493784
Toyota Corolla 0.08732818
Toyota Corona 0.05697867
Dodge Challenger 0.06954069
Jabalina AMC 0.05767659
Camaro Z28 0.10011654
Pontiac Firebird 0.12979822
Fiat X1-9 0,08334018
Porsche 914-2 0,05785170
Lotus Europa 0.08193899
Ford Pantera L 0.13831817
Ferrari Dino 0.12608583
Maserati Bora 0.49663919
Volvo 142E 0,05848459

Por lo general, examinamos más de cerca las observaciones que tienen un valor de apalancamiento superior a 2.

Una forma sencilla de hacerlo es ordenar las observaciones en función de su valor de apalancamiento, de forma descendente:

#ordenar observaciones por apalancamiento, 
sombreros descendentes [ order (-hats [' hatvalues ​​(modelo) ']),]

 [1] 0.49663919 0.19443875 0.16042361 0.13831817 0.12979822 0.12608583
 [7] 0.12447530 0.10011654 0.09828955 0.09493784 0.08816960 0.08732818
[13] 0.08346304 0.08334018 0.08193899 0.08097817 0.07614472 0.06954069
[19] 0.06287776 0.05945972 0.05848459 0.05785170 0.05767659 0.05697867
[25] 0.05102253 0.04235795 0.04235795 0.03990060 0.03990060 0.03890159
[31] 0.03890159 0.03890159

Podemos ver que el mayor valor de apalancamiento es 0.4966 . Dado que esto no es mayor que 2, sabemos que ninguna de las observaciones en nuestro conjunto de datos tiene un alto apalancamiento.

Paso 3: Visualice el apalancamiento para cada observación

Por último, podemos crear un gráfico rápido para visualizar el apalancamiento de cada observación:

#plot los valores de apalancamiento para cada 
parcela de observación (hatvalues ​​(modelo), tipo = ' h ')

apalancamiento en R

El eje x muestra el índice de cada observación en el conjunto de datos y el valor y muestra la estadística de apalancamiento correspondiente para cada observación.

Recursos adicionales

Cómo realizar una regresión lineal simple en R
Cómo realizar una regresión lineal múltiple en R
Cómo crear una gráfica residual en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La multicolinealidad en el análisis de regresión ocurre cuando dos o más variables predictoras están altamente correlacionadas entre sí, de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!