Un intervalo de confianza para una media es un rango de valores que probablemente contenga una media poblacional con un cierto nivel de confianza.
Se calcula como:
Intervalo de confianza = x +/- t * (s / √n)
dónde:
- x : media muestral
- t: valor t que corresponde al nivel de confianza
- s: desviación estándar de la muestra
- n: tamaño de la muestra
Este tutorial explica cómo calcular los intervalos de confianza en Python.
Intervalos de confianza utilizando la distribución t
Si estamos trabajando con una muestra pequeña (n <30), podemos usar la función t.interval () de la biblioteca scipy.stats para calcular un intervalo de confianza para una media poblacional.
El siguiente ejemplo muestra cómo calcular un intervalo de confianza para la altura media real de la población (en pulgadas) de una determinada especie de planta, utilizando una muestra de 15 plantas:
importar numpy como np importar scipy.stats como st #define datos de muestra datos = [12, 12, 13, 13, 15, 16, 17, 22, 23, 25, 26, 27, 28, 28, 29] # crear un intervalo de confianza del 95% para el peso medio de la población st.t.interval (alpha = 0.95, df = len (data) -1, loc = np.mean (data), scale = st.sem (data)) (16.758, 24.042)
El intervalo de confianza del 95% para la altura media real de la población es (16.758, 24.042) .
Notará que cuanto mayor sea el nivel de confianza, más amplio será el intervalo de confianza. Por ejemplo, aquí se explica cómo calcular un IC del 99% para exactamente los mismos datos:
#crear un intervalo de confianza del 99% para la misma muestra st.t.interval (alpha = 0.99 , df = len (data) -1, loc = np.mean (data), scale = st.sem (data)) (15,348, 25,455)
El intervalo de confianza del 99% para la altura media real de la población es (15,348, 25,455) . Observe que este intervalo es más amplio que el intervalo de confianza del 95% anterior.
Intervalos de confianza utilizando la distribución normal
Si estamos trabajando con muestras más grandes (n≥30), podemos asumir que la distribución muestral de la media muestral se distribuye normalmente (gracias al Teorema del límite central ) y en su lugar podemos usar la función norm.interval () de scipy biblioteca de estadísticas.
El siguiente ejemplo muestra cómo calcular un intervalo de confianza para la altura media real de la población (en pulgadas) de una determinada especie de planta, utilizando una muestra de 50 plantas:
importar numpy como np importar scipy.stats como st #define datos de muestra np.random.seed (0) datos = np.random.randint (10, 30, 50) #crear un intervalo de confianza del 95% para el peso medio de la población st.norm. (17,40, 21,08)
El intervalo de confianza del 95% para la altura media real de la población es (17,40, 21,08) .
Y de manera similar a la distribución t, los niveles de confianza más altos conducen a intervalos de confianza más amplios. Por ejemplo, aquí se explica cómo calcular un IC del 99% para exactamente los mismos datos:
#crear un intervalo de confianza del 99% para la misma muestra st.norm.interval (alfa = 0,99 , loc = np.mean (datos), escala = st.sem (datos)) (16,82; 21,66)
El intervalo de confianza del 95% para la altura media real de la población es (17,82; 21,66) .
Cómo interpretar los intervalos de confianza
Suponga que nuestro intervalo de confianza del 95% para la altura media real de la población de una especie de planta es:
Intervalo de confianza del 95% = (16.758, 24.042)
La forma de interpretar este intervalo de confianza es la siguiente:
Existe una probabilidad del 95% de que el intervalo de confianza de [16.758, 24.042] contenga la altura media real de la población de las plantas.
Otra forma de decir lo mismo es que solo hay un 5% de probabilidad de que la media real de la población esté fuera del intervalo de confianza del 95%. Es decir, hay solo un 5% de probabilidad de que la altura media de la población real de las plantas sea inferior a 16.758 pulgadas o superior a 24.042 pulgadas.
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/