SOCS: un acrónimo útil para describir distribuciones

En estadística, a menudo nos interesa comprender cómo se distribuye un conjunto de datos. En particular, hay cuatro cosas que es útil saber sobre una distribución:

1 . Forma

  • ¿La distribución es simétrica o sesgada hacia un lado?
  • ¿La distribución es unimodal (un pico) o bimodal (dos picos)?

2. Valores atípicos

  • ¿Hay valores atípicos presentes en la distribución?

3. Centro

  • ¿Cuál es la media, la mediana y la moda de la distribución?

4. Difundir

  • ¿ Cuál es el rango, rango intercuartílico, desviación estándar y varianza de la distribución?

SOCS es un acrónimo útil que podemos usar para recordar estas cuatro cosas. Significa «forma, valores atípicos, centro, extensión».

Veamos un ejemplo simple de cómo usar SOCS para describir una distribución.

Ejemplo: cómo utilizar SOCS para describir una distribución

Suponga que tenemos el siguiente conjunto de datos que muestra la altura de una muestra de 20 plantas diferentes.

Así es como podemos usar SOCS para describir esta distribución de valores de datos.

Forma

Primero, queremos describir la forma de la distribución.

Una forma útil de visualizar la forma de la distribución es crear un histograma, que muestra las frecuencias de cada valor en el conjunto de datos:

¿Es la distribución simétrica o sesgada hacia un lado? En el histograma, podemos ver que la distribución es aproximadamente simétrica. Es decir, los valores no están sesgados hacia un lado o hacia el otro.

¿La distribución es unimodal (un pico) o bimodal (dos picos)? La distribución es unimodal. Tiene un pico en el valor «7».

Valores atípicos

A continuación, queremos determinar si hay valores atípicos en el conjunto de datos. A partir del histograma, podemos inspeccionar visualmente la distribución y ver que 22 es potencialmente un valor atípico:

Ejemplo de histograma usando SOCS en estadísticas

Una forma común de definir formalmente un valor atípico es cualquier valor que sea 1,5 veces el rango intercuartílico por encima del tercer cuartil o por debajo del primer cuartil.

Usando la Calculadora de rango intercuartílico , podemos ingresar los 20 valores de datos brutos y encontrar que el tercer cuartil es 9 , el rango intercuartil es 3 y, por lo tanto, cualquier valor por encima de 9 + (1.5 * 3) = 13.5 es un valor atípico, por definición.

Dado que 22 es mayor que 13,5, podemos declarar que 22 es un valor atípico.

Centrar

A continuación, queremos describir dónde se encuentra el centro de la distribución. Tres medidas comunes de tendencia central que podemos usar son la media, la mediana y la moda.

Media: este es el valor promedio en la distribución. Encontramos esto sumando todos los valores individuales, luego dividiendo por el número total de valores:

Media = (8 + 4 + 6 + 7 + 7 + 6 + 7 + 8 + 6 + 11 + 8 + 22 + 10 + 9 + 9 + 7 + 5 + 7 + 6 + 4) / 20 = 7.85

Mediana: este es el valor «medio» en la distribución. Encontramos esto ordenando todos los valores de menor a mayor, luego identificando el valor medio. Esto resulta ser 7 .

4, 4, 5, 6, 6, 6, 6, 7, 7, 7 , 7 , 7, 8, 8, 8, 9, 9, 10, 11, 22

Modo: este es el valor que ocurre con mayor frecuencia. Esto resulta ser 7 .

Propagar

A continuación, queremos describir qué tan dispersos están los valores en la distribución. Cuatro medidas comunes de dispersión que podemos usar son el rango, el rango entre cuartiles, la desviación estándar y la varianza.

Rango: esta es la diferencia entre el valor más grande y el más pequeño del conjunto de datos. Esto resulta ser 22 – 4 = 18 .

Rango intercuartílico: mide el ancho del 50% medio de los valores de los datos. Al ingresar los 20 valores de datos brutos en la Calculadora de rango intercuartílico , podemos ver que esto es igual a 3 .

Desviación estándar: esta es una medida de cuán dispersos están los valores de los datos, en promedio. Al ingresar los 20 valores de datos brutos en la calculadora de varianza y devación estándar, podemos ver que la desviación estándar es igual a 3,69 .

Varianza: esta es simplemente la desviación estándar, al cuadrado. Esto es igual a 3,69 2 = 13,63 .

Conclusión

Al utilizar SOCS como guía, pudimos describir la distribución de las alturas de las plantas de la siguiente manera:

  • La distribución fue unimodal y simétrica, lo que significa que solo tenía un pico y no estaba sesgada hacia un lado u otro.
  • La distribución tuvo un valor atípico: 22.
  • La distribución tenía una media de 7,85, una mediana de 7 y una moda de 7.
  • La distribución tuvo un rango de 18, un rango intercuartílico de 3, una desviación estándar de 3,69 y una varianza de 13,63.

Tenga en cuenta que podemos usar SOCS para describir cualquier distribución, lo cual es una forma útil para que obtengamos una buena comprensión de la forma de una distribución, si tiene valores atípicos, dónde se encuentra aproximadamente el centro y cómo se distribuyen los valores de los datos. están.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Un valor atípico es una observación que se encuentra anormalmente alejada de otros valores en un conjunto de datos. Los…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!