Medidas de dispersión: definición y ejemplos

Cuando analizamos un conjunto de datos, a menudo nos preocupan dos cosas:

1. Dónde se encuentra el valor «central». A menudo medimos el «centro» usando la media y la mediana .

2. Qué tan «dispersos» están los valores. Medimos el » margen » mediante el rango , el rango intercuartílico , la varianza y la desviación estándar .

Distancia

El rango es la diferencia entre el valor más grande y el más pequeño de un conjunto de datos.

Supongamos que tenemos este conjunto de datos de puntajes finales de exámenes de matemáticas para 20 estudiantes:

Cómo encontrar la desviación estándar y la varianza de un conjunto de datos
El valor más grande es 98. El valor más pequeño es 58. Por lo tanto, el rango es 98 – 58 = 40 .

Rango intercuartil

El rango intercuartil es la diferencia entre el primer cuartil y el tercer cuartil en un conjunto de datos.

Los cuartiles son valores que dividen un conjunto de datos en cuatro partes iguales. A continuación, se explica cómo encontrar el rango intercuartílico del siguiente conjunto de datos de puntajes de exámenes:

Varianza y desviación estándar de un conjunto de datos

1. Organice los valores de menor a mayor.

58, 66, 71, 73, 74, 77, 78, 82, 84, 85, 88, 88, 88, 90, 90, 92, 92, 94, 96, 98

2. Encuentra la mediana. (En este caso, es el promedio de los dos valores del medio)

58, 66, 71, 73, 74, 77, 78, 82, 84, 85 (MEDIANO) 88 , 88, 88, 90, 90, 92, 92, 94, 96, 98

3. La mediana divide el conjunto de datos en dos mitades. La mediana de la mitad inferior es el cuartil inferior (Q1) y la mediana de la mitad superior es el cuartil superior (Q3)

58, 66, 71, 73, 74, 77 , 78, 82, 84, 85, 88, 88, 88, 90, 90, 92 , 92, 94, 96, 98

4. El rango intercuartílico es igual a Q3 – Q1.

En este caso, Q1 es el promedio de los dos valores del medio en la mitad inferior del conjunto de datos (75,5) y Q3 es el promedio de los dos valores del medio en la mitad superior del conjunto de datos (91).

Por tanto, el rango intercuartílico es 91 – 75,5 = 15,5

Rango intercuartil frente a rango

El rango intercuartil es más resistente a los valores atípicos en comparación con el rango, lo que puede convertirlo en una mejor métrica para medir la «propagación».

Por ejemplo, supongamos que tenemos el siguiente conjunto de datos con ingresos para diez personas:

Comparando el rango con el rango intercuartílico
El rango es $ 2,468,000, pero el rango intercuartílico es $ 34,000, que es una indicación mucho mejor de cuán dispersos están realmente los ingresos.

En este caso, el ingreso atípico de la persona J hace que el rango sea extremadamente grande y lo convierte en un mal indicador del “margen” de estos ingresos.

Diferencia

La varianza es una forma común de medir cuán dispersos están los valores de los datos.

La fórmula para encontrar la varianza de una población (denotada como σ 2 ) es:

σ 2 = Σ (x i – μ) 2 / N

donde μ es la media de la población, x i es el i- ésimo elemento de la población, N es el tamaño de la población y Σ es solo un símbolo elegante que significa «suma».

Normalmente trabajamos con muestras , no con poblaciones. Y la fórmula para encontrar la varianza de una muestra (denotada como s 2 ) es:

s 2 = Σ (x yox ) 2 / (n-1)

Desviación Estándar

La desviación estándar es la raíz cuadrada de la varianza. Es la forma más común de medir qué tan «dispersos» están los valores de los datos.

La fórmula para encontrar la desviación estándar de una población (denotada como σ ) es:

√ Σ (x i – μ) 2 / N

Y la fórmula para encontrar la desviación estándar de una muestra (denotada como s ) es:

√Σ (x ix ) 2 / (n-1)

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La validez de criterio se refiere a qué tan bien la medición de una variable puede predecir la respuesta de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!