Cómo calcular intervalos de confianza en Python

Un intervalo de confianza para una media es un rango de valores que probablemente contenga una media poblacional con un cierto nivel de confianza.

Se calcula como:

Intervalo de confianza = x +/- t * (s / √n)

dónde:

  • x : media muestral
  • t: valor t que corresponde al nivel de confianza
  • s: desviación estándar de la muestra
  • n: tamaño de la muestra

Este tutorial explica cómo calcular los intervalos de confianza en Python.

Intervalos de confianza utilizando la distribución t

Si estamos trabajando con una muestra pequeña (n <30), podemos usar la función t.interval () de la biblioteca scipy.stats para calcular un intervalo de confianza para una media poblacional.

El siguiente ejemplo muestra cómo calcular un intervalo de confianza para la altura media real de la población (en pulgadas) de una determinada especie de planta, utilizando una muestra de 15 plantas:

importar numpy como np
 importar scipy.stats como st

#define datos de muestra
datos = [12, 12, 13, 13, 15, 16, 17, 22, 23, 25, 26, 27, 28, 28, 29]

# crear un intervalo de confianza del 95% para el peso medio de la población
 st.t.interval (alpha = 0.95, df = len (data) -1, loc = np.mean (data), scale = st.sem (data))

(16.758, 24.042)

El intervalo de confianza del 95% para la altura media real de la población es (16.758, 24.042) .

Notará que cuanto mayor sea el nivel de confianza, más amplio será el intervalo de confianza. Por ejemplo, aquí se explica cómo calcular un IC del 99% para exactamente los mismos datos:

#crear un intervalo de confianza del 99% para la misma muestra
 st.t.interval (alpha = 0.99 , df = len (data) -1, loc = np.mean (data), scale = st.sem (data))

(15,348, 25,455)

El intervalo de confianza del 99% para la altura media real de la población es (15,348, 25,455) . Observe que este intervalo es más amplio que el intervalo de confianza del 95% anterior.

Intervalos de confianza utilizando la distribución normal

Si estamos trabajando con muestras más grandes (n≥30), podemos asumir que la distribución muestral de la media muestral se distribuye normalmente (gracias al Teorema del límite central ) y en su lugar podemos usar la función norm.interval () de scipy biblioteca de estadísticas.

El siguiente ejemplo muestra cómo calcular un intervalo de confianza para la altura media real de la población (en pulgadas) de una determinada especie de planta, utilizando una muestra de 50 plantas:

importar numpy como np
 importar scipy.stats como st

#define datos de muestra
np.random.seed (0)
datos = np.random.randint (10, 30, 50)

#crear un intervalo de confianza del 95% para el peso medio de la población
 st.norm.

(17,40, 21,08)

El intervalo de confianza del 95% para la altura media real de la población es (17,40, 21,08) .

Y de manera similar a la distribución t, los niveles de confianza más altos conducen a intervalos de confianza más amplios. Por ejemplo, aquí se explica cómo calcular un IC del 99% para exactamente los mismos datos:

#crear un intervalo de confianza del 99% para la misma muestra
 st.norm.interval (alfa = 0,99 , loc = np.mean (datos), escala = st.sem (datos))

(16,82; 21,66)

El intervalo de confianza del 95% para la altura media real de la población es (17,82; 21,66) .

Cómo interpretar los intervalos de confianza

Suponga que nuestro intervalo de confianza del 95% para la altura media real de la población de una especie de planta es:

Intervalo de confianza del 95% = (16.758, 24.042)

La forma de interpretar este intervalo de confianza es la siguiente:

Existe una probabilidad del 95% de que el intervalo de confianza de [16.758, 24.042] contenga la altura media real de la población de las plantas.

Otra forma de decir lo mismo es que solo hay un 5% de probabilidad de que la media real de la población esté fuera del intervalo de confianza del 95%. Es decir, hay solo un 5% de probabilidad de que la altura media de la población real de las plantas sea inferior a 16.758 pulgadas o superior a 24.042 pulgadas.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Puede eliminar fácilmente los signos de dólar y las comas de las columnas del marco de datos en R utilizando…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!