Dimensionalidad y datos de alta dimensión: definición, ejemplos, maldición de

Actualizado por ultima vez el 31 de marzo de 2022, por Luis Benites.

¿Qué es la Dimensionalidad?

La dimensionalidad en las estadísticas se refiere a cuántos atributos tiene un conjunto de datos . Por ejemplo, los datos de atención médica son conocidos por tener una gran cantidad de variables (p. ej., presión arterial, peso, nivel de colesterol). En un mundo ideal, estos datos podrían representarse en una hoja de cálculo, con una columna que representa cada dimensión. En la práctica, esto es difícil de hacer, en parte porque muchas variables están interrelacionadas (como el peso y la presión arterial).

Nota : Dimensionalidad significa algo ligeramente diferente en otras áreas de las matemáticas y las ciencias. Por ejemplo, en física, la dimensionalidad generalmente se puede expresar en términos de dimensiones fundamentales como masa, tiempo o longitud. En álgebra matricial , dos unidades de medida tienen la misma dimensionalidad si ambas afirmaciones son verdaderas:

  1. Existe una función que asigna una variable a otra variable.
  2. La inversa de la función en (1) hace lo contrario.

Datos de alta dimensión

Alta dimensión significa que la cantidad de dimensiones es asombrosamente alta, tan alta que los cálculos se vuelven extremadamente difíciles. Con datos de alta dimensión, la cantidad de características puede exceder la cantidad de observaciones. Por ejemplo, los microarreglos, que miden la expresión génica, pueden contener decenas de cientos de muestras. Cada muestra puede contener decenas de miles de genes.

dimensionalidad

Análisis de microarrays de alta dimensión.

Una persona (es decir, una observación) tiene millones de posibles combinaciones de genes. Otras áreas en las que las características superan las observaciones incluyen finanzas, imágenes de alta resolución y análisis de sitios web (por ejemplo, publicidad, rastreo o clasificación).

¿Qué es la reducción de la dimensionalidad?

La reducción de la dimensionalidad significa simplificar la comprensión de los datos, ya sea numérica o visualmente. Se mantiene la integridad de los datos. Para reducir la dimensionalidad, puede combinar datos relacionados en grupos utilizando una herramienta como el escalado multidimensional para identificar similitudes en los datos. También puede utilizar la agrupación para agrupar elementos.

Maldición de dimensionalidad

La maldición de la dimensionalidad generalmente se refiere a lo que sucede cuando agrega más y más variables a un modelo multivariado. Cuantas más dimensiones agregue a un conjunto de datos, más difícil será predecir ciertas cantidades. Pensarías que más es mejor. Sin embargo, cuando se trata de agregar variables, ocurre lo contrario. Cada variable añadida da como resultado una disminución exponencial del poder predictivo.

Como ejemplo simple, supongamos que está utilizando un modelo para predecir la ubicación de una bacteria grande en una placa de Petri de 25 cm 2 . El modelo podría ser bastante preciso al precisar la partícula al cm cuadrado más cercano. Sin embargo, supongamos que agrega solo una dimensión más: en lugar de una placa de Petri 2D, usa un vaso de precipitados 3D. El espacio predictivo aumenta exponencialmente, de 25 cm 2 a 125 cm 3 . Cuando agrega más dimensiones, tiene sentido que la carga computacional también aumente . No sería imposible señalar dónde podrían estar las bacterias en un modelo 3D. Sin embargo, es una tarea más desafiante.

La maldición estadística de la dimensionalidad se refiere a un hecho relacionado: un tamaño de muestra requerido n crecerá exponencialmente con datos que tienen d dimensiones. En términos simples, agregar más dimensiones podría significar que el tamaño de la muestra que necesita rápidamente se vuelve inmanejable.

Siguiente : Unidimensionalidad

Referencias y lecturas adicionales :
Finney, DJ (1977). Revista “Dimensions of Stat” del Royal Stat. Sociedad. Serie C (Estadística Aplicada). 26, No.3, p.285-289. RSS.

Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

Deja un comentario

¿Qué es un Correlograma? Un correlograma (también llamado Gráfica ACF de función de correlación automática o Gráfica de autocorrelación) es…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!