Distancia de Cook / D de Cook: Definición, Interpretación

Actualizado por ultima vez el 9 de enero de 2022, por Luis Benites.

¿Qué es la distancia de Cook?

La distancia de Cook, D i , se usa en el análisis de regresión para encontrar valores atípicos influyentes en un conjunto de variables predictoras . En otras palabras, es una forma de identificar puntos que afectan negativamente su modelo de regresión. La medida es una combinación de los valores residuales y de apalancamiento de cada observación ; cuanto mayor sea el apalancamiento y los residuos, mayor será la distancia de Cook.

La distancia de Cook que muestra el elemento #26 como un valor atípico potencial.

La distancia de Cook que muestra el elemento #26 como un valor atípico potencial.

Existen varias interpretaciones para la distancia de Cook. No existe una regla universalmente aceptada para los puntos de corte.

  • Una interpretación es investigar cualquier punto sobre 4/n, donde n es el número de observaciones.
  • Otros autores sugieren que se debe investigar cualquier D i “grande” . ¿Qué tan grande es «demasiado grande»? El consenso parece ser que un valor de D i de más de 1 indica un valor influyente, pero es posible que desee buscar valores superiores a 0,5. Cualquier valor que sobresalga del otro (como el del gráfico anterior) también debe investigarse.
  • Una forma alternativa (pero un poco más técnica) de interpretar D i es encontrar el valor del percentil del valor atípico potencial utilizando la distribución F. Un percentil de más de 50 indica un punto muy influyente.

Si tiene muchos puntos con valores grandes de D i , eso podría indicar un problema con su modelo de regresión en general.

Fórmula

Técnicamente, la D de Cook se calcula eliminando el i -ésimo punto de datos del modelo y volviendo a calcular la regresión. Resume cuánto cambian todos los valores en el modelo de regresión cuando se elimina la i -ésima observación. La fórmula para la distancia de Cook es: como esto puede volverse bastante engorroso a mano, querrá usar un software como Minitab o SPSS para hacerlo.
d del cocinero

En Minitab :

  • Vaya a Regresión > Regresión.
  • Haga clic en «Almacenamiento» y luego seleccione «Distancia de cocción».
  • Haga clic en Aceptar.»

Aparecerá una columna COOK en sus celdas de datos con los valores D de Cook.

Referencia :
Cook, R. Dennis (febrero de 1977). “Detección de Observaciones Influyentes en Regresión Lineal”. Tecnometría (Asociación Estadounidense de Estadística)).

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Qué es una correlación espuria? Una correlación espuria implica erróneamente una causa y efecto entre dos variables. Por ejemplo, la…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!