Una explicación simple de cómo interpretar la varianza

En estadística, a menudo nos interesa comprender qué tan «dispersos» están los valores en un conjunto de datos. Para medir esto, a menudo usamos las siguientes medidas de dispersión :

  • El rango: la diferencia entre el valor más grande y el más pequeño de un conjunto de datos.
  • El rango intercuartil: la diferencia entre el primer cuartil y el tercer cuartil en un conjunto de datos (los cuartiles son simplemente valores que dividen un conjunto de datos en cuatro partes iguales).
  • La desviación estándar: una forma de medir la distancia típica entre los valores y la media.
  • La varianza: la desviación estándar al cuadrado.

De estas cuatro medidas, la varianza tiende a ser la más difícil de comprender intuitivamente. Esta publicación tiene como objetivo proporcionar una explicación simple de la variación.

Comprensión de la desviación estándar

Antes de que podamos comprender la varianza, primero debemos comprender la desviación estándar , normalmente denotada como σ .

La fórmula para calcular la desviación estándar es:

σ = √ (Σ (x i – μ) 2 / N)

donde μ es la media de la población, x i es el i- ésimo elemento de la población, N es el tamaño de la población y Σ es solo un símbolo elegante que significa «suma».

En la práctica, rara vez necesitará calcular la desviación estándar a mano; en su lugar, puede utilizar un software estadístico o una calculadora.

En su nivel más básico, la desviación estándar nos dice qué tan dispersos están los valores de los datos en un conjunto de datos. Para ilustrar esto, considere los siguientes tres conjuntos de datos junto con sus desviaciones estándar correspondientes:

[5, 5, 5] desviación estándar = 0 (sin dispersión)

[3, 5, 7] desviación estándar = 1,63 (algún margen)

[1, 5, 99] desviación estándar = 45,28 (mucho margen)

El término «desviación estándar» se puede entender observando las dos palabras que lo componen:

  • «Desviación»: se refiere a la distancia desde la media.
  • “Estándar”: se refiere a la distancia “estándar” o “típica” entre la que se encuentra un valor y la media.

Una vez que comprenda la desviación estándar, es mucho más fácil comprender la varianza.

Entendiendo la Varianza

La varianza, típicamente denotada como σ 2 , es simplemente la desviación estándar al cuadrado. La fórmula para encontrar la varianza de un conjunto de datos es:

σ 2 = Σ (x i – μ) 2 / N

donde μ es la media de la población, x i es el i- ésimo elemento de la población, N es el tamaño de la población y Σ es solo un símbolo elegante que significa «suma».

Entonces, si la desviación estándar de un conjunto de datos es 8, entonces la variación sería 8 2 = 64.

O, si la desviación estándar de un conjunto de datos es 10, entonces la variación sería 10 2 = 100.

O, si la desviación estándar de un conjunto de datos es 3,7, entonces la variación sería 3,7 2 = 13,69.

Cuanto más dispersos estén los valores en un conjunto de datos, mayor será la varianza. Para ilustrar esto, considere los siguientes tres conjuntos de datos junto con sus variaciones correspondientes:

[5, 5, 5] varianza = 0 (sin dispersión)

[3, 5, 7] varianza = 2,67 (alguna diferencia)

[1, 5, 99] varianza = 2050,67 (mucho margen )

¿Cuándo usaría la varianza en lugar de la desviación estándar?

Después de leer las explicaciones anteriores sobre la desviación estándar y la varianza, es posible que se pregunte cuándo usaría la varianza en lugar de la desviación estándar para describir un conjunto de datos.

Después de todo, la desviación estándar nos dice la distancia promedio a la que se encuentra un valor de la media, mientras que la varianza nos dice el cuadrado de este valor. Parecería que la desviación estándar es mucho más fácil de entender e interpretar.

En realidad, casi siempre usará la desviación estándar para describir qué tan dispersos están los valores en un conjunto de datos. Sin embargo, la varianza puede ser útil cuando está utilizando una técnica como ANOVA o Regresión y está tratando de explicar la varianza total en un modelo debido a factores específicos.

Por ejemplo, es posible que desee comprender cuánta variación en las puntuaciones de las pruebas puede explicarse por el coeficiente intelectual y cuánta variación puede explicarse por las horas estudiadas. Si el 36% de la variación se debe al coeficiente intelectual y el 64% a las horas de estudio, es fácil de entender. Pero si usamos las desviaciones estándar de 6 y 8, eso es mucho menos intuitivo y no tiene mucho sentido en el contexto del problema.

Otro caso en el que puede ser mejor utilizar la varianza que la desviación estándar es cuando se realiza un trabajo estadístico teórico. En este caso, es mucho más fácil usar la varianza al hacer cálculos, ya que no es necesario usar un signo de raíz cuadrada.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Una gráfica de barras agrupada es un tipo de gráfico que muestra cantidades para diferentes variables, agrupadas por otra variable.…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!