Contenido de este artículo
- 0
- 0
- 0
- 0
Actualizado el 10 de mayo de 2022, por Luis Benites.
Un histograma es un gráfico que nos ayuda a visualizar la distribución de valores en un conjunto de datos.
Resulta que la cantidad de bins utilizados en un histograma puede tener un gran impacto en la forma en que interpretamos los datos.
Si usamos muy pocos bins, el verdadero patrón subyacente en los datos se puede ocultar:
Y si usamos demasiados bins, es posible que estemos visualizando el ruido en un conjunto de datos:
Afortunadamente, podemos usar un método conocido como regla de Sturges para determinar el número óptimo de contenedores para usar en un histograma.
La regla de Sturges usa la siguiente fórmula para determinar el número óptimo de contenedores para usar en un histograma:
Contenedores óptimos = ⌈log 2 n + 1⌉
dónde:
- n: el número total de observaciones en el conjunto de datos.
- ⌈ ⌉: Símbolos que significan «techo», es decir, redondean la respuesta al número entero más cercano.
Ejemplo de la Regla de Sturges
Supongamos que tenemos el siguiente conjunto de datos con n = 31 observaciones en total:
Podemos usar la regla de Sturges para determinar el número óptimo de bins a usar para visualizar estos valores en un histograma:
Bandejas óptimas = ⌈log 2 (31) + 1⌉ = ⌈4.954 + 1⌉ = ⌈5.954⌉ = 6 .
De acuerdo con la regla de Sturges, deberíamos usar 6 contenedores en el histograma que usamos para visualizar esta distribución de valores.
Así es como se vería un histograma con 6 contenedores para este conjunto de datos:
Observe cómo estos contenedores parecen ser suficientes para tener una buena idea de la distribución subyacente de valores sin ser demasiados que solo estamos visualizando el ruido en los datos.
Valores comunes de la regla de Sturges
La siguiente tabla muestra el número óptimo de bins para usar en un histograma basado en el número total de observaciones en un conjunto de datos, de acuerdo con la regla de Sturges:
Alternativas a la regla de Sturges
La regla de Sturges es el método más común para determinar el número óptimo de bins para usar en un histograma, pero existen varios métodos alternativos que incluyen:
La regla de la raíz cuadrada : número de contenedores = ⌈√ n ⌉
La regla del arroz: Número de contenedores = ⌈2 * 3 √ n ⌉
La regla de Freedman-Diaconis: Número de contenedores = (2 * IQR) / 3 √ n donde IQR es el rango intercuartílico.
Bono: Calculadora de reglas de Sturges
Utilice esta calculadora en línea gratuita para aplicar automáticamente la regla de Sturges para determinar la cantidad óptima de contenedores que se utilizarán para un histograma en función del tamaño de un conjunto de datos.
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: