Minería de datos: definición simple, usos y técnicas

Actualizado por ultima vez el 7 de mayo de 2022, por Luis Benites.

  • Cree un histograma : si tiene un conjunto de datos muy grande, un histograma puede reducir sus datos a un conjunto simple de contenedores ; Los contenedores funcionan como los contenedores de clasificación en la vida real: imagínese clasificar físicamente los datos en un conjunto de 20 contenedores. ¿El final resulto? Puede ver qué tan lleno (o vacío) está cada contenedor. Esto funciona bien si tiene una forma clara de dividir sus datos en secciones (como niveles de ingresos o puntajes de crédito).
  • Muestree sus datos : con el muestreo , usted toma pequeñas porciones de sus datos y usa esas pequeñas secciones para hacer inferencias sobre el conjunto de datos completo . El muestreo es una herramienta especialmente buena si tiene una gran cantidad de datos (por ejemplo, millones de elementos) y desea reducir esa cantidad a un nivel viable (por ejemplo, un par de cientos).
  • Volver arriba.

    2. Construcción de modelos para explicar los datos

    Para los conjuntos de datos con etiquetas de clase , la clasificación y la regresión se utilizan para crear modelos (los datos con etiquetas de clase tienen un conjunto de atributos discretos que desea predecir).

    La clasificación es el proceso de construcción de modelos para datos discretos . El objetivo es encontrar un modelo o función, o un conjunto de modelos/funciones, que describa adecuadamente los conceptos o las clases de datos que le interesan. Las diferentes formas de representación del modelo (Han et. al, 2011) incluyen:

    • Reglas de clasificación (por ejemplo, reglas SI-ENTONCES),
    • Árboles de decisión : un tipo muy específico de árbol de probabilidad que le permite tomar una decisión sobre algún tipo de proceso. Por ejemplo, es posible que desee elegir entre fabricar el artículo A o el artículo B, o invertir en la opción 1, la opción 2 o la opción 3.
    • Fórmulas matemáticas (por ejemplo, un conjunto de funciones).

    Para datos continuos , el análisis de regresión puede ser útil para predecir tendencias, pasadas y presentes. Los datos se ajustan a una ecuación (lineal, cuadrática o alguna otra forma). La ecuación se puede usar para llenar los espacios en blanco.

    procesamiento de datos

    Un clúster es un grupo que tiene alguna característica en común.

    Si sus datos no están etiquetados por clases, la agrupación en clústeres puede descubrir asociaciones en los datos. Los conglomerados (grupos) se forman de modo que los elementos de datos tengan la máxima cantidad en común entre sí y la menor cantidad posible de elementos en común con los elementos de datos de otros conglomerados.

    3. Aplicar el modelo para hacer nuevas predicciones

    Encontrar el modelo correcto es excelente, pero a menos que realmente use ese modelo para hacer algo, entonces es tan útil como un viejo libro de texto polvoriento. Tienes que tomar tu modelo y usarlo para responder las preguntas para las que extrajiste los datos en primer lugar. La forma exacta en que haga esto depende de lo que haya obtenido (un modelo lineal, por ejemplo, o tal vez una función). Sin embargo, el éxito general se mide cuando le da sentido a los datos previstos.

    Volver arriba.

    Conjuntos de datos en minería de datos

    Los conjuntos de datos son colecciones de datos. Cualquier conjunto de elementos puede considerarse un conjunto de datos. Por ejemplo, {1,2,3} es un conjunto de datos que consta de tres elementos. En el extremo opuesto de la escala, los conjuntos pueden contener millones de elementos, como los datos del censo de EE . UU . Cada valor individual en un conjunto de datos (como 1, 2 o 3 en el conjunto anterior) se denomina dato .

    Los datos no tienen que estar obviamente conectados para llamarlos un «conjunto». Cualquier grupo de elementos se puede considerar como un conjunto de datos. Por ejemplo, un conjunto aleatorio de elementos como {azul,7,ojos,reparación} puede considerarse un conjunto. El hecho de que los elementos estén colocados juntos lo convierte en un conjunto. Este hecho tiene un uso particular para la minería de datos, donde se filtran grandes conjuntos de datos para tratar de encontrar tendencias y temas en los datos. Esas tendencias y temas generalmente no son obvios a simple vista. Como ejemplo simple, ¿esa colección aparentemente aleatoria {8%,7,primary,repair}? Esos están realmente relacionados con el color azul. El ocho por ciento de las personas tiene ojos azules, el azul es el séptimo color en la canción del arcoíris, el azul es un color primario y el azul se usa a menudo en la maquinaria para indicar que necesita reparación.

    Tipos más específicos

    Cuando las personas hablan de conjuntos de datos, generalmente se refieren a la idea general de un conjunto de datos, como se describe anteriormente. Sin embargo, existen tipos específicos de conjuntos de datos que se utilizan en las estadísticas, tales como:

    conjuntos de datos

    una matriz

    • Matrices , donde las columnas representan variables y las filas son miembros del conjunto.
    • Una tabla de base de datos, que contiene un único conjunto de datos.

    Conjuntos de datos públicos

    Clásico

    Varios conjuntos de datos se han utilizado una y otra vez en las estadísticas, que incluyen:

    • Análisis de datos bayesianos : el autor Andrew Gelman proporciona los grandes conjuntos de datos a los que se hace referencia en el libro clásico.
    • Iris , famosa en trabajos de reconocimiento de patrones.
    • Serie de tiempo de Chatfield proporciona cuatro conjuntos de datos del libro sobre pronóstico de series de tiempo.

    Otros escenarios públicos

    Muchos gobiernos, empresas e instituciones brindan acceso público gratuito a grandes conjuntos de datos para la minería de datos .

    1. Githib enumera una gran cantidad de datos públicos, desde el gobierno hasta los museos, desde la biología hasta la física, desde las finanzas hasta el clima y el clima.
    2. Amazon.com alberga una variedad de conjuntos de datos públicos a los que puede acceder de forma gratuita. Los conjuntos incluyen ciencias de la tierra de la NASA, datos de rastreo web y datos del censo de EE. UU. de 1980 a 2000.
    3. El gobierno del Reino Unido proporciona acceso a miles de conjuntos de datos. Incluyen: datos de seguridad vial, datos de tráfico vial y cientos de otras categorías.

    Volver arriba.

    Referencias:

    Han, J. Pei, J. Kamber, M. (2011). Minería de Datos: Conceptos y Técnicas. Elsevier.
    Linoff et. Alabama. (2011). Técnicas de minería de datos: para marketing, ventas y gestión de relaciones con los clientes. Wiley e hijos.
    Jorgenson, D. Hunter, J. Nadiri, M. (1970). El Desempeño Predictivo de los Modelos Econométricos del Comportamiento Trimestral de la Inversión . Econométrica. vol. 38, No. 2 (marzo de 1970), págs. 213-224
    Piatesky-Shapiro et. Alabama. (1996). Una descripción general de los problemas en el desarrollo de aplicaciones de descubrimiento de conocimientos y minería de datos industriales. De Actas KDD-96. Recuperado el 3 de octubre de 2017 de: PSU.edu

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Deja un comentario

    ¿Qué son las variables estandarizadas? Una variable estandarizada significa algo ligeramente diferente según el lugar donde la estés usando. Uso…
    statologos comunidad-2

    Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

    You have Successfully Subscribed!