¿Qué son los datos de alta dimensión? (Definición y ejemplos)

Actualizado por ultima vez el 7 de mayo de 2021, por .

Datos dimensional alta se refiere a un conjunto de datos en el que el número de características p es mayor que el número de observaciones N , escrito a menudo como p >> N .

Por ejemplo, un conjunto de datos que tiene p = 6 características y solo N = 3 observaciones se consideraría datos de alta dimensión porque la cantidad de características es mayor que la cantidad de observaciones.

Datos de alta dimensión

Un error común que cometen las personas es suponer que «datos de alta dimensión» simplemente significa un conjunto de datos que tiene muchas características. Sin embargo, eso es incorrecto. Un conjunto de datos podría tener 10,000 características, pero si tiene 100,000 observaciones, entonces no es de alta dimensión.

Nota: Consulte el Capítulo 18 en Los elementos del aprendizaje estadístico para profundizar en las matemáticas subyacentes a los datos de alta dimensión.

¿Por qué los datos de alta dimensión son un problema?

Cuando el número de características en un conjunto de datos excede el número de observaciones, nunca tendremos una respuesta determinista.

En otras palabras, resulta imposible encontrar un modelo que pueda describir la relación entre las variables predictoras y la variable de respuesta porque no tenemos suficientes observaciones para entrenar el modelo.

Ejemplos de datos de alta dimensión

Los siguientes ejemplos ilustran conjuntos de datos de alta dimensión en diferentes campos.

Ejemplo 1: datos sanitarios

Los datos de alta dimensión son comunes en los conjuntos de datos de atención médica donde la cantidad de características para un individuo dado puede ser masiva (es decir, presión arterial, frecuencia cardíaca en reposo, estado del sistema inmunológico, historial de cirugía, altura, peso, condiciones existentes, etc.).

En estos conjuntos de datos, es común que la cantidad de características sea mayor que la cantidad de observaciones.

Ejemplo de datos de alta dimensión

Ejemplo 2: datos financieros

Los datos de alta dimensión también son comunes en conjuntos de datos financieros donde la cantidad de características para una acción determinada puede ser bastante grande (es decir, proporción de PE, capitalización de mercado, volumen de negociación, tasa de dividendos, etc.)

En estos tipos de conjuntos de datos, es común que la cantidad de características sea mucho mayor que la cantidad de acciones individuales.

Ejemplo 3: Genómica

Los datos de alta dimensión también ocurren a menudo en el campo de la genómica, donde el número de características genéticas de un individuo dado puede ser enorme.

Cómo manejar datos de alta dimensión

Hay dos formas habituales de tratar con datos de gran dimensión:

1. Elija incluir menos funciones.

La forma más obvia de evitar tratar con datos de gran dimensión es simplemente incluir menos características en el conjunto de datos.

Hay varias formas de decidir qué características eliminar de un conjunto de datos, que incluyen:

  • Eliminar entidades con muchos valores perdidos: si una columna determinada de un conjunto de datos tiene muchos valores perdidos, es posible que pueda eliminarlos por completo sin perder mucha información.
  • Eliminar características con baja variación: si una columna determinada en un conjunto de datos tiene valores que cambian muy poco, es posible que pueda eliminarla, ya que es poco probable que ofrezca tanta información útil sobre una variable de respuesta en comparación con otras características.
  • Eliminar características con baja correlación con la variable de respuesta: si una característica determinada no está altamente correlacionada con la variable de respuesta de interés, es probable que pueda eliminarla del conjunto de datos, ya que es poco probable que sea una característica útil en un modelo.

2. Utilice un método de regularización.

Otra forma de manejar datos de alta dimensión sin eliminar características del conjunto de datos es usar una técnica de regularización como:

Cada una de estas técnicas se puede utilizar para tratar de forma eficaz datos de gran dimensión.

Puede encontrar una lista completa de todos los tutoriales de aprendizaje automático sobre Estadología en esta página .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En el análisis de series de tiempo, un promedio móvil es simplemente el valor promedio de un cierto número de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!