Contenido de este artículo
- 0
- 0
- 0
- 0
En estadística, una distribución de final abierto es una distribución de frecuencia en la que una o más clases (o «bins») son de final abierto.
Por ejemplo, la siguiente distribución de frecuencia representa una distribución abierta en la que la clase más pequeña es abierta:
Y la siguiente distribución de frecuencia muestra una distribución abierta en la que la clase más grande es abierta:
Por el contrario, una distribución de extremo cerrado es aquella en la que cada clase en la distribución de frecuencia tiene un límite superior e inferior, como los siguientes:
¿Qué causa las distribuciones abiertas?
Las distribuciones abiertas son a menudo el resultado de que los investigadores elijan recopilar datos de tal manera que una de las clases termine siendo abierta.
Por ejemplo, suponga que un investigador encuesta a los residentes de una ciudad determinada y les pregunta sobre sus ingresos familiares anuales.
El investigador puede optar por dar la respuesta más grande posible “> $ 100,000” porque sabe que los residentes de altos ingresos pueden no sentirse cómodos compartiendo cuánto ganan si es significativamente más de $ 100,000.
Por el contrario, el investigador puede optar por hacer la respuesta más pequeña posible abierta porque sabe que los residentes que ganan muy poco tampoco se sentirán cómodos compartiendo lo poco que ganan.
En pocas palabras, los investigadores a menudo incluyen clases abiertas en sus encuestas porque quieren maximizar el número de personas que se sienten cómodas respondiendo las preguntas de la encuesta.
El problema con las distribuciones abiertas
El problema con las distribuciones abiertas es que los datos verdaderos son censurados . En otras palabras, podríamos conocer la cantidad de personas que ganan más de $ 100 mil en una ciudad determinada, pero en realidad no conocemos sus ingresos anuales exactos.
Es posible que algunas personas ganen $ 150k, $ 250k, $ 500k o incluso más, pero no tenemos idea ya que cada una de estas personas solo puede indicar que gana “> $ 100,000” en la encuesta.
Debido a que los datos se censuran en distribuciones abiertas, tampoco podemos calcular la media exacta y la desviación estándar de los valores en el conjunto de datos, ya que no tenemos acceso a todos los valores de los datos sin procesar.
Cómo analizar una distribución abierta
Dado que no podemos calcular la media exacta de una distribución abierta, a menudo usamos la mediana como una medida del «centro» del conjunto de datos.
Recuerde que la mediana representa el valor medio del conjunto de datos.
Cuando trabajamos con distribuciones abiertas, podemos usar la siguiente fórmula para encontrar la mejor estimación de la mediana:
Mejor estimación de la mediana: L + ((n / 2 – F) / f) * w
dónde:
- L: el límite inferior del grupo mediano
- n: el número total de observaciones
- F: la frecuencia acumulada hasta el grupo mediano
- f: la frecuencia del grupo mediano
- w: el ancho del grupo mediano
Por ejemplo, supongamos que tenemos la siguiente distribución abierta de antes:
Hay un total de 72 valores en el conjunto de datos. Por lo tanto, sabemos que el valor mediano se ubicará entre el valor 36º y 37º más grande del conjunto de datos. Cada uno de estos valores se encuentra dentro de la clase «$ 60,000 – $ 79,999», por lo que sabemos que el ingreso medio se encuentra dentro de este rango.
Nuestra mejor estimación de la mediana sería:
Mediana: 60,000 + ((72/2 – 25) / 19) * 19,999 = $ 71,578
Este valor representa nuestra mejor estimación del ingreso anual medio de las personas en este conjunto de datos.
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: