Contenido de este artículo
- 0
- 0
- 0
- 0
Actualizado el 17 de julio de 2024, por Luis Benites.
En estadística, una observación se considera un valor atípico si tiene un valor para la variable de respuesta que es mucho mayor que el resto de las observaciones del conjunto de datos.
De manera similar, se considera que una observación tiene un alto apalancamiento si tiene un valor (o valores) para las variables predictoras que son mucho más extremos en comparación con el resto de las observaciones en el conjunto de datos.
Uno de los primeros pasos en cualquier tipo de análisis es observar más de cerca las observaciones que tienen un alto apalancamiento, ya que podrían tener un gran impacto en los resultados de un modelo determinado.
Este tutorial muestra un ejemplo paso a paso de cómo calcular y visualizar el apalancamiento para cada observación en un modelo en R.
Paso 1: crear un modelo de regresión
Primero, crearemos un modelo de regresión lineal múltiple utilizando el conjunto de datos mtcars integrado en R:
#cargar el conjunto de datos datos (mtcars) #ajustar un modelo de regresión modelo <- lm (mpg ~ disp + hp, data = mtcars) #ver resumen de resumen del modelo (modelo) Coeficientes: Estimar Std. Valor t de error Pr (> | t |) (Intercepción) 30.735904 1.331566 23.083 <2e-16 *** disp -0.030346 0.007405 -4.098 0.000306 *** CV -0,024840 0,013385 -1,856 0,073679. --- Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1 Error estándar residual: 3,127 en 29 grados de libertad R cuadrado múltiple: 0,7482, R cuadrado ajustado: 0,7309 Estadístico F: 43,09 en 2 y 29 DF, valor de p: 2,062e-09
Paso 2: Calcule el apalancamiento para cada observación
A continuación, usaremos la función hatvalues () para calcular el apalancamiento para cada observación en el modelo:
#calcular el apalancamiento para cada observación en el modelo hats <- as . datos . frame (hatvalues (modelo)) #muestra las estadísticas de apalancamiento para cada sombrero de observación hatvalues (modelo) Mazda RX4 0.04235795 Mazda RX4 Wag 0.04235795 Datsun 710 0.06287776 Hornet 4 Drive 0.07614472 Hornet Sportabout 0.08097817 Valiente 0.05945972 Duster 360 0.09828955 Merc 240D 0,08816960 Merc 230 0.05102253 Merc 280 0,03990060 Merc 280C 0,03990060 Merc 450SE 0,03890159 Merc 450SL 0.03890159 Merc 450SLC 0,03890159 Cadillac Fleetwood 0.19443875 Lincoln Continental 0.16042361 Chrysler Imperial 0.12447530 Fiat 128 0.08346304 Honda Cívico 0.09493784 Toyota Corolla 0.08732818 Toyota Corona 0.05697867 Dodge Challenger 0.06954069 Jabalina AMC 0.05767659 Camaro Z28 0.10011654 Pontiac Firebird 0.12979822 Fiat X1-9 0,08334018 Porsche 914-2 0,05785170 Lotus Europa 0.08193899 Ford Pantera L 0.13831817 Ferrari Dino 0.12608583 Maserati Bora 0.49663919 Volvo 142E 0,05848459
Por lo general, examinamos más de cerca las observaciones que tienen un valor de apalancamiento superior a 2.
Una forma sencilla de hacerlo es ordenar las observaciones en función de su valor de apalancamiento, de forma descendente:
#ordenar observaciones por apalancamiento, sombreros descendentes [ order (-hats [' hatvalues (modelo) ']),] [1] 0.49663919 0.19443875 0.16042361 0.13831817 0.12979822 0.12608583 [7] 0.12447530 0.10011654 0.09828955 0.09493784 0.08816960 0.08732818 [13] 0.08346304 0.08334018 0.08193899 0.08097817 0.07614472 0.06954069 [19] 0.06287776 0.05945972 0.05848459 0.05785170 0.05767659 0.05697867 [25] 0.05102253 0.04235795 0.04235795 0.03990060 0.03990060 0.03890159 [31] 0.03890159 0.03890159
Podemos ver que el mayor valor de apalancamiento es 0.4966 . Dado que esto no es mayor que 2, sabemos que ninguna de las observaciones en nuestro conjunto de datos tiene un alto apalancamiento.
Paso 3: Visualice el apalancamiento para cada observación
Por último, podemos crear un gráfico rápido para visualizar el apalancamiento de cada observación:
#plot los valores de apalancamiento para cada parcela de observación (hatvalues (modelo), tipo = ' h ')
El eje x muestra el índice de cada observación en el conjunto de datos y el valor y muestra la estadística de apalancamiento correspondiente para cada observación.
Recursos adicionales
Cómo realizar una regresión lineal simple en R
Cómo realizar una regresión lineal múltiple en R
Cómo crear una gráfica residual en R
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: