Datos y observaciones influyentes: definición simple

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

Actualizado el 21 de julio de 2024, por Luis Benites.

Los datos influyentes consisten en puntos de datos que influyen (sesgan) un análisis de manera importante. Son valores atípicos que tienen suficiente influencia para cambiar significativamente una línea de regresión o coeficientes estadísticos ; eliminarlos lleva un análisis a una conclusión diferente.

Propiedades de los datos influyentes

Un punto de datos influyente tiene dos propiedades clave:

  1. Tiene propiedades que no son representativas de los otros puntos de datos . No sigue la tendencia general y el valor de la variable dependiente es inesperado dado los valores que obtendría de las variables predictoras .
  2. Tiene apalancamiento : la capacidad de mover una línea de regresión hacia sí misma.

La identificación de datos influyentes es importante porque el análisis de regresión no es resistente a los valores atípicos influyentes; una medición incorrecta tiene el potencial de desbaratar por completo un análisis. Dado que todo el muestreo de datos es propenso al error humano, es importante estar abierto a la posibilidad de que no todos nuestros puntos de datos sean completamente válidos.

Dos fórmulas pueden ayudar a identificar puntos de datos influyentes en un conjunto de datos: Cook’s D y DFFits.

D de cocinero

Esta fórmula viene dada por:

Cook’s D tiene más de una interpretación, por lo que puede ser complicado de usar. Para obtener más detalles, consulte: ¿Qué es la D de Cook?

Fórmula de distancia de ajuste (DFFits)

DFFits se escribe como:



s i es una estimación del error estándar de la pendiente de regresión , h ii es el apalancamiento del punto, y ŷ i y ŷ i(i) son predicciones de respuesta con y sin el punto incluido en la regresión.
La primera parte de la fórmula representa las respuestas de datos previstas sin que se analice el punto, y el segundo término representa con. Básicamente, está descubriendo cuánta diferencia hace ese punto. El denominador en realidad representa la desviación estándar estimada del cambio en las respuestas previstas.

Eso significa que el número que nos da la fórmula DFFITS es el número de desviaciones estándar que cambia su variable de respuesta cuando se admite su punto de interés.

Si DFFITS para un punto de datos es mayor que


ese punto se puede clasificar como datos influyentes.

Se puede utilizar cualquiera de los métodos anteriores para marcar datos influyentes; en general, se recomienda ir con lo que sea más fácil de ejecutar en el paquete de software que está utilizando para el análisis de datos.

Referencias

O’Halloran, S. (nd). Comprobación de modelos. Recuperado el 30 de diciembre de 2017 de http://www.columbia.edu/~so33/SusDev/Lecture_5.pdf
Penn State (2017). Métodos de regresión: Identificación de puntos de datos influyentes
Obtenido el 31 de diciembre de 2017 de https://onlinecourses.science.psu.edu/stat501/node/340
Sampson, P. (2010). Stat 423: Datos inusuales e influyentes
Obtenido el 30 de diciembre de 2017 de http://www.stat.washington.edu/pds/stat423/Documents/LectureNotes/notes.423.ch11.pdf.

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Cómo ejecutar un MANCOVA en SPSS El análisis multivariante de covarianza (MANCOVA) es similar a un ANCOVA, excepto que hay…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!