Contenido de este artículo
- 0
- 0
- 0
- 0
En estadística, una observación influyente es una observación en un conjunto de datos que, cuando se elimina, cambia drásticamente las estimaciones de coeficientes de un modelo de regresión.
La forma más común de medir la influencia de las observaciones es usar la distancia de Cook , que cuantifica cuánto cambian todos los valores ajustados en un modelo de regresión cuando se elimina la i- ésima observación.
Como regla general, cualquier observación con una distancia de Cook superior a 1 se considera una observación con alto apalancamiento.
El siguiente ejemplo muestra cómo calcular e interpretar la distancia de Cook para un conjunto de datos dado para detectar posibles observaciones influyentes.
Ejemplo: detección de observaciones influyentes
Supongamos que tenemos el siguiente conjunto de datos con 14 valores:
Ahora suponga que ajustamos un modelo de regresión lineal simple . El resultado de la regresión se muestra a continuación:
Usando software estadístico, podemos calcular los siguientes valores para la distancia de Cook para cada observación:
Observe que la última observación tiene un valor significativamente mayor que 1 para la distancia de Cook, lo que nos dice que es una observación influyente.
Supongamos que eliminamos este valor del conjunto de datos y ajustamos un nuevo modelo de regresión lineal simple. El resultado de este modelo se muestra a continuación:
Observe que los coeficientes de regresión para la intersección y x cambiaron drásticamente. Esto nos dice que eliminar la observación influyente del conjunto de datos cambió por completo el modelo de regresión ajustado.
Los siguientes gráficos muestran la diferencia entre estas dos ecuaciones de regresión ajustadas:
Observe cuánto cambia la línea de regresión la única observación influyente. Al eliminar esta observación, pudimos encontrar una línea de regresión que se ajusta mucho más a los datos.
Notas
Es importante tener en cuenta que la distancia de Cook debe usarse como una forma de identificar observaciones potencialmente influyentes. Sin embargo, el hecho de que una observación sea influyente no significa necesariamente que deba eliminarse del conjunto de datos.
Primero, debe verificar que la observación no sea el resultado de un error de entrada de datos o alguna otra ocurrencia extraña. Si resulta ser un valor legítimo, puede decidir tratarlo de una de las siguientes maneras:
- Bórralo del conjunto de datos.
- Déjelo en el conjunto de datos.
- Reemplácelo con un valor alternativo como la media o la mediana.
Dependiendo de su escenario específico, una de estas opciones puede tener más sentido que las otras.
Cómo calcular la distancia de Cook en la práctica
Los siguientes tutoriales explican cómo calcular la distancia de Cook para un conjunto de datos dado en Python y R:
Cómo calcular la distancia de Cook en Python
Cómo calcular la distancia de Cook en R
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: