Medidas de tendencia central: definición y ejemplos

Una medida de tendencia central es un valor único que representa el punto central de un conjunto de datos. Este valor también puede denominarse «la ubicación central» de un conjunto de datos.

En estadística, hay tres medidas comunes de tendencia central:

  • El significado
  • La mediana
  • El modo

Cada una de estas medidas encuentra la ubicación central de un conjunto de datos utilizando diferentes métodos.Dependiendo del tipo de datos que esté analizando, una de estas tres medidas puede ser mejor de usar que las otras dos.

En esta publicación, veremos cómo calcular cada una de las tres medidas de tendencia central junto con cómo determinar qué medida es mejor usar en función de sus datos.

¿Por qué son útiles las medidas de tendencia central?

Antes de ver cómo calcular la media, la mediana y la moda, es útil comprender primero por qué estas medidas son realmente útiles en primer lugar.

Considere el siguiente escenario:

Una pareja joven está tratando de decidir dónde comprar su primera casa en una nueva ciudad y lo máximo que pueden gastar son $ 150,000. Algunos barrios de la ciudad tienen casas caras, algunos tienen casas baratas y otros tienen casas de precio medio. Quieren limitar fácilmente su búsqueda a vecindarios específicos que estén dentro de su presupuesto.

Si la pareja solo mirara los precios de las viviendas individuales en cada vecindario, podrían tener dificultades para determinar qué vecindarios se ajustan mejor a su presupuesto porque podrían ver algo como esto:

Precios de las viviendas en el vecindario A : $ 140.000, $ 190.000, $ 265.000, $ 115.000, $ 270.000, $ 240.000, $ 250.000, $ 180.000, $ 160.000, $ 200.000, $ 240.000, $ 280.000,…

Precios de las casas en el vecindario B : $ 140.000, $ 290.000, $ 155.000, $ 165.000, $ 280.000, $ 220.000, $ 155.000, $ 185.000, $ 160.000, $ 200.000, $ 190.000, $ 140.000, $ 145.000,…

Precios de las casas en el vecindario C : $ 140 mil, $ 130 mil, $ 165 mil, $ 115 mil, $ 170 mil, $ 100 mil, $ 150 mil, $ 180 mil, $ 190 mil, $ 120 mil, $ 110 mil, $ 130 mil, $ 120 mil,…

Sin embargo, si supieran la media (por ejemplo, una medida de tendecy central) precios de la vivienda en cada barrio, entonces podrían reducir su busca mucho más rápido, ya que pueden más fácilmente identificar qué barrio tiene precios de las viviendas que están dentro de su presupuesto:

Precio promedio de una casa en el vecindario A : $ 220k

Precio promedio de una casa en el vecindario B : $ 190k

Precio promedio de una casa en el vecindario C : $ 140k

Al conocer el precio promedio de la vivienda en cada vecindario, pueden ver rápidamente que es probable que el vecindario C tenga la mayoría de las casas disponibles dentro de su presupuesto.

Este es el beneficio de utilizar una medida de tendencia central: le ayuda a comprender el valor central de un conjunto de datos, que tiende a describir dónde caen normalmente los valores de los datos. En este ejemplo en particular, ayuda a la pareja joven a comprender el precio típico de la vivienda en cada vecindario.

Conclusión: una medida de tendencia central es útil porque nos proporciona un valor único que describe el «centro» de un conjunto de datos. Esto nos ayuda a comprender un conjunto de datos mucho más rápidamente en comparación con simplemente mirar todos los valores individuales en el conjunto de datos.

Significar

La medida de tendencia central más utilizada es la media . Para calcular la media de un conjunto de datos, simplemente sume todos los valores individuales y divida por el número total de valores.

Media = (suma de todos los valores) / (número total de valores)

Por ejemplo, supongamos que tenemos el siguiente conjunto de datos que muestra la cantidad de jonrones que pegaron 10 jugadores de béisbol en el mismo equipo en una temporada:

Jugador # 1 # 2 # 3 # 4 # 5 # 6 # 7 # 8 # 9 # 10
Jonrones 8 15 22 21 12 9 11 27 14 13

El número medio de jonrones por jugador se puede calcular como:

Media = (8 + 15 + 22 + 21 + 12 + 9 + 11 + 27 + 14 + 13) / 10 = 15,2 jonrones .

Mediana

La mediana es el valor medio de un conjunto de datos. Puede encontrar la mediana organizando todos los valores individuales en un conjunto de datos de menor a mayor y encontrando el valor medio. Si hay un número impar de valores, la mediana es el valor medio. Si hay un número par de valores, la mediana es el promedio de los dos valores medios.

Por ejemplo, para encontrar el número medio de jonrones conectados por los 10 jugadores de béisbol en el ejemplo anterior, podemos organizar a los jugadores en orden de menor a mayor número de jonrones conectados:

Jugador # 1 # 6 # 7 # 5 # 10 # 9 # 2 # 4 # 3 # 8
Jonrones 8 9 11 12 13 14 15 21 22 27

Como tenemos un número par de valores, la mediana es simplemente el promedio de los dos valores medios: 13,5 .

En cambio, considere si tuviéramos nueve jugadores:

Jugador # 1 # 6 # 7 # 5 # 9 # 2 # 4 # 3 # 8
Jonrones 8 9 11 12 14 15 21 22 27

En este caso, dado que tenemos un número impar de valores, la mediana es simplemente el valor medio: 14 .

El modo

La moda es el valor que ocurre con mayor frecuencia en un conjunto de datos. Un conjunto de datos no puede tener modo (si no se repite ningún valor), un modo o varios modos.

Por ejemplo, el siguiente conjunto de datos no tiene modo:

Jugador # 1 # 2 # 3 # 4 # 5 # 6 # 7 # 8 # 9 # 10
Jonrones 8 9 11 12 13 14 15 21 22 27

El siguiente conjunto de datos tiene un modo: 15 . Este es el valor que ocurre con mayor frecuencia.

Jugador # 1 # 2 # 3 # 4 # 5 # 6 # 7 # 8 # 9 # 10
Jonrones 8 9 11 12 13 15 15 21 22 27

El siguiente conjunto de datos tiene tres modos: 8, 15, 19 . Estos son los valores que ocurren con mayor frecuencia.

Jugador # 1 # 2 # 3 # 4 # 5 # 6 # 7 # 8 # 9 # 10
Jonrones 8 8 11 12 15 15 17 19 19 27

La moda puede ser una medida de tendencia central particularmente útil cuando se trabaja con datos categóricos porque nos dice qué categoría ocurre con mayor frecuencia. Por ejemplo, considere el siguiente gráfico de barras que muestra los resultados de una encuesta sobre el color favorito de las personas:

El modo , o la respuesta que se produjo con mayor frecuencia, fue el azul.

En escenarios donde los datos son categóricos (como el anterior), ni siquiera es posible calcular la mediana o la media, por lo que la moda es la única medida de tendencia central que podemos usar.

El modo también se puede utilizar para datos numéricos, como vimos en el ejemplo anterior con jugadores de béisbol. Sin embargo, el modo tiende a ser menos útil para responder la pregunta «¿Cuál es un valor típico para este conjunto de datos?»

Por ejemplo, supongamos que queremos saber el número típico de jonrones que conecta un jugador de béisbol de este equipo:

Jugador # 1 # 2 # 3 # 4 # 5 # 6 # 7 # 8 # 9 # 10
Jonrones 8 8 11 12 15 15 17 19 19 27

La moda de este conjunto de datos es 8, 15 y 19, ya que estos son los valores que ocurren con mayor frecuencia. Sin embargo, estos no son muy útiles para comprender el número típico de jonrones que conecta un jugador del equipo. Una mejor medida de tendencia central sería la mediana (15) o la media (también 15) en este caso.

La moda también es una mala medida de tendencia central cuando resulta ser un número que está lejos del resto de los valores. Por ejemplo, la moda del siguiente conjunto de datos es 30, pero en realidad no representa el número «típico» de jonrones por jugador del equipo:

Jugador # 1 # 2 # 3 # 4 # 5 # 6 # 7 # 8 # 9 # 10
Jonrones 5 6 7 10 11 12 13 15 30 30

Una vez más, la media o la mediana harían un mejor trabajo al describir la ubicación central de este conjunto de datos.

Cuándo usar la media, la mediana y la moda

Hemos visto que la media, la mediana y la moda miden la ubicación central, o el «valor típico», de un conjunto de datos de formas muy diferentes:

Media: encuentra el valor promedio en un conjunto de datos.

Mediana: encuentra el valor medio en un conjunto de datos.

Modo: busca el valor que ocurre con más frecuencia en un conjunto de datos.

Estos son los escenarios en los que ciertas medidas de tendencia central son mejores de usar que otras:

Cuando usar la media

Es mejor usar la media cuando la distribución de los datos es bastante simétrica y no hay valores atípicos.

Por ejemplo, supongamos que tenemos la siguiente distribución que muestra los salarios de las personas en una determinada ciudad:

Dado que esta distribución es bastante simétrica (es decir, si la divide por la mitad, cada mitad se vería aproximadamente igual) y no hay valores atípicos (es decir, no hay salarios extremadamente altos), la media hará un buen trabajo al describir este conjunto de datos.

La media resulta ser $ 63,000, que se ubica aproximadamente en el centro de la distribución:

Cuando usar la mediana

Es mejor utilizar la mediana cuando la distribución de los datos está sesgada o hay valores atípicos presentes.

Datos sesgados:

Cuando la distribución está sesgada, la mediana todavía hace un buen trabajo al capturar la ubicación del centro. Por ejemplo, considere la siguiente distribución de salarios para las personas en una determinada ciudad:

La mediana hace un mejor trabajo capturando el salario «típico» de un individuo que la media. Esto se debe a que los valores grandes en el extremo de la cola de una distribución tienden a alejar la media del centro y acercarla a la cola larga.

En este ejemplo en particular, la media nos dice que el individuo típico gana alrededor de $ 47,000 por año en esta ciudad, mientras que la mediana nos dice que el individuo típico solo gana alrededor de $ 32,000 por año, lo cual es mucho más representativo del individuo típico.

Valores atípicos:

La mediana también hace un mejor trabajo al capturar la ubicación central de una distribución cuando hay valores atípicos presentes en los datos. Por ejemplo, considere el siguiente cuadro que muestra los pies cuadrados de las casas en una calle determinada:

La media está fuertemente influenciada por un par de casas extremadamente grandes, mientras que la mediana no. Por lo tanto, la mediana hace un mejor trabajo al capturar los pies cuadrados “típicos” de una casa en esta calle en comparación con la media.

Cuando usar el modo

Es mejor usar el modo cuando trabaja con datos categóricos y desea saber qué categoría ocurre con más frecuencia. Aqui hay un par de ejemplos:

  • Realiza una encuesta sobre los colores favoritos de las personas y desea saber qué color aparece con más frecuencia en las respuestas.
  • Realiza una encuesta sobre las preferencias de las personas entre tres opciones para el diseño de un sitio web y desea saber qué diseño prefieren las personas más.

Como se mencionó anteriormente, si está trabajando con datos categóricos, ni siquiera es posible calcular la mediana o la media, lo que deja la moda como la única medida de tendencia central.

En general, si está trabajando con datos numéricos como pies cuadrados de casas, número de jonrones por jugador, salario por individuo, etc., entonces generalmente es mejor usar la mediana o la media para describir el valor «típico» en el conjunto de datos.

Nota: Es importante tener en cuenta que si un conjunto de datos tiene una distribución perfectamente normal, entonces la media, la mediana y la moda tienen el mismo valor.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

1 comentario en «Medidas de tendencia central: definición y ejemplos»

Deja un comentario

El cuarteto de Anscombe es una colección de cuatro conjuntos de datos que tienen estadísticas descriptivas idénticas , pero que…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!