Contenido de este artículo
- 0
- 0
- 0
- 0
En estadística, el análisis de regresión es una técnica que utilizamos para comprender la relación entre una variable predictora, x, y una variable de respuesta, y.
Cuando realizamos un análisis de regresión, terminamos con un modelo que nos dice el valor predicho para la variable de respuesta en función del valor de la variable predictora.
Una forma de evaluar qué tan «bueno» se ajusta nuestro modelo a un conjunto de datos dado es calcular la raíz del error cuadrático medio , que es una métrica que nos dice qué tan lejos están nuestros valores predichos de nuestros valores observados, en promedio.
La fórmula para encontrar la raíz del error cuadrático medio, más comúnmente conocida como RMSE , es la siguiente:
RMSE = √ [Σ (P i – O i ) 2 / n]
dónde:
- Σ es un símbolo elegante que significa «suma»
- P i es el valor predicho para la i- ésima observación en el conjunto de datos
- O i es el valor observado para la i- ésima observación en el conjunto de datos
- n es el tamaño de la muestra
Notas de nerd:
- El error cuadrático medio se puede calcular para cualquier tipo de modelo que produzca valores predichos, que luego se pueden comparar con los valores observados de un conjunto de datos.
- El error cuadrático medio a veces también se denomina desviación cuadrática media raíz, que a menudo se abrevia como RMSD.
A continuación, veamos un ejemplo de cómo calcular el error cuadrático medio de la raíz en Excel.
Cómo calcular el error cuadrático medio de la raíz en Excel
No hay una función incorporada para calcular RMSE en Excel, pero podemos calcularlo con bastante facilidad con una sola fórmula. Mostraremos cómo calcular RMSE para dos escenarios diferentes.
escenario 1
En un escenario, es posible que tenga una columna que contenga los valores predichos de su modelo y otra columna que contenga los valores observados. La siguiente imagen muestra un ejemplo de este escenario:
Si este es el caso, puede calcular el RMSE escribiendo la siguiente fórmula en cualquier celda y luego haciendo clic en CTRL + MAYÚS + ENTRAR:
= SQRT (SUMSQ (A2: A21-B2: B21) / COUNTA (A2: A21))
Esto nos dice que la raíz del error cuadrático medio es 2.6646 .
La fórmula puede parecer un poco complicada, pero tiene sentido una vez que la desglosas:
= SQRT ( SUMSQ (A2: A21-B2: B21) / COUNTA (A2: A21) )
- Primero, calculamos la suma de las diferencias cuadradas entre los valores predichos y observados usando la función SUMSQ () .
- A continuación, dividimos por el tamaño de muestra del conjunto de datos usando COUNTA () , que cuenta la cantidad de celdas en un rango que no están vacías.
- Por último, tomamos la raíz cuadrada de todo el cálculo usando la función SQRT () .
Escenario 2
En otro escenario, es posible que ya haya calculado las diferencias entre los valores predichos y observados. En este caso, solo tendrá una columna que muestre las diferencias.
La siguiente imagen muestra un ejemplo de este escenario. Los valores predichos se muestran en la columna A, los valores observados en la columna B y la diferencia entre los valores predichos y observados en la columna D:
Si este es el caso, puede calcular el RMSE escribiendo la siguiente fórmula en cualquier celda y luego haciendo clic en CTRL + MAYÚS + ENTRAR:
= SQRT (SUMSQ (D2: D21) / COUNTA (D2: D21))
Esto nos dice que la raíz del error cuadrático medio es 2.6646 , que coincide con el resultado que obtuvimos en el primer escenario. Esto confirma que estos dos enfoques para calcular RMSE son equivalentes.
La fórmula que usamos en este escenario es solo ligeramente diferente a la que usamos en el escenario anterior:
= SQRT ( SUMSQ (D2: D21) / COUNTA (D2: D21) )
- Dado que ya calculamos las diferencias entre los valores predichos y observados en la columna D, podemos calcular la suma de las diferencias al cuadrado utilizando la función SUMSQ () solo con los valores de la columna D.
- A continuación, dividimos por el tamaño de muestra del conjunto de datos usando COUNTA () , que cuenta la cantidad de celdas en un rango que no están vacías.
- Por último, tomamos la raíz cuadrada de todo el cálculo usando la función SQRT () .
Cómo interpretar RMSE
Como se mencionó anteriormente, RMSE es una forma útil de ver qué tan bien un modelo de regresión (o cualquier modelo que produzca valores predichos) es capaz de «ajustar» un conjunto de datos.
Cuanto mayor sea el RMSE, mayor será la diferencia entre los valores predichos y observados, lo que significa que peor se ajusta el modelo de regresión a los datos. Por el contrario, cuanto más pequeño sea el RMSE, mejor podrá un modelo ajustar los datos.
Puede ser particularmente útil comparar el RMSE de dos modelos diferentes entre sí para ver qué modelo se ajusta mejor a los datos.
Para obtener más tutoriales en Excel, asegúrese de consultar nuestra página de guías de Excel , que enumera todos los tutoriales de Excel sobre Statología.
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: