Regresión versus clasificación: ¿Cuál es la diferencia?

Puedes opinar sobre este contenido:
  • 0
  • 0
  • 0
  • 0

Los algoritmos de aprendizaje automático se pueden dividir en dos tipos distintos: algoritmos de aprendizaje supervisados ​​y no supervisados .

Regresión vs algoritmos de aprendizaje automático de clasificación

Los algoritmos de aprendizaje supervisado se pueden clasificar en dos tipos:

1. Regresión: La variable de respuesta es continua.

Por ejemplo, la variable de respuesta podría ser:

  • Peso
  • Altura
  • Precio
  • Hora
  • Unidades totales

En cada caso, un modelo de regresión busca predecir una cantidad continua.

Ejemplo de regresión:

Suponga que tenemos un conjunto de datos que contiene tres variables para 100 casas diferentes: pies cuadrados, cantidad de baños y precio de venta.

Podríamos ajustar un modelo de regresión que use la superficie cuadrada y el número de baños como variables explicativas y el precio de venta como variable de respuesta.

Luego, podríamos usar este modelo para predecir el precio de venta de una casa, en función de sus pies cuadrados y la cantidad de baños.

Este es un ejemplo de un modelo de regresión porque la variable de respuesta (precio de venta) es continua.

La forma más común de medir la precisión de un modelo de regresión es calculando la raíz del error cuadrático medio (RMSE), una métrica que nos dice qué tan lejos están nuestros valores predichos de nuestros valores observados en un modelo, en promedio. Se calcula como:

RMSE = √ [Σ (P i – O i ) 2 / n]

dónde:

  • Σ es un símbolo elegante que significa «suma»
  • P i es el valor predicho para la i- ésima observación
  • O i es el valor observado para la i- ésima observación
  • n es el tamaño de la muestra

Cuanto menor sea el RMSE, mejor será el ajuste de los datos por parte del modelo de regresión.

2. Clasificación: La variable de respuesta es categórica.

Por ejemplo, la variable de respuesta podría adoptar los siguientes valores:

  • Masculino o femenino
  • Aprobar o suspender
  • Bajo, medio o alto

En cada caso, un modelo de clasificación busca predecir alguna etiqueta de clase.

Ejemplo de clasificación:

Supongamos que tenemos un conjunto de datos que contiene tres variables para 100 jugadores de baloncesto universitarios diferentes: puntos promedio por juego, nivel de división y si fueron reclutados o no en la NBA.

Podríamos ajustar un modelo de clasificación que use puntos promedio por juego y nivel de división como variables explicativas y “redactado” como variable de respuesta.

Luego, podríamos usar este modelo para predecir si un jugador determinado será seleccionado en la NBA en función de su promedio de puntos por juego y nivel de división.

Este es un ejemplo de un modelo de clasificación porque la variable de respuesta («redactada») es categórica. Es decir, solo puede tomar valores en dos categorías diferentes: «Redactado» o «No redactado».

La forma más común de medir la precisión de un modelo de clasificación es simplemente calculando el porcentaje de clasificaciones correctas que hace el modelo:

Precisión = clasificaciones de corrección / total de clasificaciones intentadas * 100%

Por ejemplo, si un modelo identifica correctamente si un jugador será reclutado o no en la NBA 88 de 100 veces posibles, entonces la precisión del modelo es:

Precisión = (88/100) * 100% = 88%

Cuanto mayor sea la precisión, mejor podrá predecir los resultados un modelo de clasificación.

Similitudes entre regresión y clasificación

Los algoritmos de regresión y clasificación son similares en las siguientes formas:

  • Ambos son algoritmos de aprendizaje supervisado, es decir, ambos involucran una variable de respuesta.
  • Ambos usan una o más variables explicativas para construir modelos para predecir alguna respuesta.
  • Ambos se pueden utilizar para comprender cómo los cambios en los valores de las variables explicativas afectan los valores de una variable de respuesta.

Diferencias entre regresión y clasificación

Los algoritmos de regresión y clasificación son diferentes de las siguientes maneras:

  • Los algoritmos de regresión buscan predecir una cantidad continua y los algoritmos de clasificación buscan predecir una etiqueta de clase.
  • La forma en que medimos la precisión de los modelos de regresión y clasificación es diferente.

Conversión de regresión en clasificación

Vale la pena señalar que un problema de regresión se puede convertir en un problema de clasificación simplemente discretizando la variable de respuesta en cubos.

Por ejemplo, supongamos que tenemos un conjunto de datos que contiene tres variables: pies cuadrados, cantidad de baños y precio de venta.

Podríamos construir un modelo de regresión usando pies cuadrados y número de baños para predecir el precio de venta.

Sin embargo, podríamos discretizar el precio de venta en tres clases diferentes:

  • $ 80 000 – $ 160 000: «Precio de venta bajo»
  • 161.000 $ – 240.000 $: «Precio de venta medio»
  • $ 241 000 – $ 320 000: «Precio de venta alto»

Luego, podríamos usar los pies cuadrados y la cantidad de baños como variables explicativas para predecir en qué clase (baja, media o alta) caerá el precio de venta de una casa determinada.

Este sería un ejemplo de un modelo de clasificación, ya que estamos intentando colocar cada casa en una clase.

Resumen

La siguiente tabla resume las similitudes y diferencias entre los algoritmos de regresión y clasificación:

Diferencias entre regresión y clasificación

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Redactor del artículo

  • Luis Benites
    Director de Statologos.com

    Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.

    Ver todas las entradas

¿Te hemos ayudado?

Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:

La ayuda no cuesta nada

Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo:

Deja un comentario

Se utiliza un ANOVA de una vía ("análisis de varianza") para determinar si existe o no una diferencia estadísticamente significativa…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!