Cómo calcular RMSE en R

El error cuadrático medio (RMSE) es una métrica que nos dice qué tan lejos están nuestros valores predichos de nuestros valores observados en un análisis de regresión, en promedio. Se calcula como:

RMSE = √ [Σ (P i – O i ) 2 / n]

dónde:

  • Σ es un símbolo elegante que significa «suma»
  • P i es el valor predicho para la i- ésima observación en el conjunto de datos
  • O i es el valor observado para la i- ésima observación en el conjunto de datos
  • n es el tamaño de la muestra

Este tutorial explica dos métodos que puede utilizar para calcular RMSE en R.

Método 1: escriba su propia función

Supongamos que tenemos un conjunto de datos con una columna que contiene los valores de datos reales y una columna que contiene los valores de datos predichos:

#create conjunto de datos
data <- data.frame (actual = c (34, 37, 44, 47, 48, 48, 46, 43, 32, 27, 26, 24),
                   predicho = c (37, 40, 46, 44, 46, 50, 45, 44, 34, 30, 22, 23))

#ver conjunto de datos
datos

   real predicho
1 34 37
2 37 40
3 44 46
4 47 44
5 48 46
6 48 50
7 46 45
8 43 44
9 32 34
10 27 30
11 26 22
12 24 23

Para calcular el RMSE, podemos usar la siguiente función:

#calcular RMSE
sqrt (media ((datos $ real - datos $ pronosticados) ^ 2))

[1] 2.43242

El error cuadrático medio es 2.43242 .

Método 2: usar un paquete

También podríamos calcular RMSE para el mismo conjunto de datos usando la función rmse () del paquete Metrics , que usa la siguiente sintaxis:

rmse (real, predicho)

dónde:

  • actual: valores reales
  • predicho: valores predichos

Aquí está la sintaxis que usaríamos en nuestro ejemplo:

#load biblioteca de paquetes de
 métricas (métricas)

calcular RMSE
 rmse (datos $ reales, datos $ predichos)

[1] 2.43242

El error cuadrático medio es 2.43242 , que coincide con lo que calculamos anteriormente usando nuestra propia función.

Cómo interpretar RMSE

RMSE es una forma útil de ver qué tan bien un modelo de regresión puede ajustarse a un conjunto de datos.

Cuanto mayor sea el RMSE, mayor será la diferencia entre los valores predichos y observados, lo que significa que peor se ajusta un modelo de regresión a los datos. Por el contrario, cuanto más pequeño sea el RMSE, mejor podrá un modelo ajustar los datos.

Puede ser particularmente útil comparar el RMSE de dos modelos diferentes entre sí para ver qué modelo se ajusta mejor a los datos.

Recursos adicionales

Calculadora RMSE
Cómo calcular MSE en R
Cómo calcular MAPE en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Una desviación estándar combinada es simplemente un promedio ponderado de las desviaciones estándar de dos o más grupos independientes. En…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!