¿Qué es un buen valor R cuadrado?

R cuadrado es una medida de qué tan bien un modelo de regresión lineal «se ajusta» a un conjunto de datos.También llamado comúnmente coeficiente de determinación , R-cuadrado es la proporción de la varianza en la variable de respuesta que se puede explicar por la variable predictora.

El valor de R-cuadrado puede variar de 0 a 1. Un valor de 0 indica que la variable de respuesta no puede explicarse en absoluto por la variable de predicción.Un valor de 1 indica que la variable de respuesta se puede explicar perfectamente sin errores mediante la variable predictora.

En la práctica, es probable que nunca vea un valor de 0 o 1 para R cuadrado. En cambio, es probable que encuentre algún valor entre 0 y 1.

Por ejemplo, suponga que tiene un conjunto de datos que contiene el tamaño de la población y la cantidad de floristerías en 30 ciudades diferentes. Se ajusta un modelo de regresión lineal simple al conjunto de datos, utilizando el tamaño de la población como variable de predicción y las floristerías como variable de respuesta. En la salida de los resultados de la regresión, verá que R 2 = 0,2. Esto indica que el 20% de la variación en el número de floristerías se puede explicar por el tamaño de la población.

Esto lleva a una pregunta importante: ¿ es este un valor «bueno» para R-cuadrado?

La respuesta a esta pregunta depende de su objetivo para el modelo de regresión. A saber:

1. ¿Está interesado en explicar la relación entre los predictores y la variable de respuesta?

O

2. ¿Está interesado en predecir la variable de respuesta?

Dependiendo del objetivo, la respuesta a “¿Cuál es un buen valor para R-cuadrado? » Será diferente.

Explicación de la relación entre el (los) predictor (es) y la variable de respuesta

Si su objetivo principal para su modelo de regresión es explicar la relación entre los predictores y la variable de respuesta, el R-cuadrado es en su mayoría irrelevante.

Por ejemplo, suponga que en el ejemplo de regresión anterior, ve que el coeficiente para el tamaño de la población del predictor es 0,005 y que es estadísticamente significativo. Esto significa que un aumento de uno en el tamaño de la población está asociado con un aumento promedio de 0.005 en el número de floristerías en una ciudad en particular. Además, el tamaño de la población es un predictor estadísticamente significativo del número de tiendas de flores en una ciudad.

Si el valor de R cuadrado para este modelo de regresión es 0.2 o 0.9 no cambia esta interpretación. Dado que simplemente está interesado en la relación entre el tamaño de la población y el número de floristerías, no tiene que preocuparse demasiado por el valor R-cuadrado del modelo.

Predecir la variable de respuesta

Si su objetivo principal es predecir el valor de la variable de respuesta con precisión utilizando la variable predictora, entonces R-cuadrado es importante.

En general, cuanto mayor sea el valor de R cuadrado, más precisamente las variables predictoras pueden predecir el valor de la variable de respuesta.

Qué tan alto debe ser un valor R-cuadrado depende de qué tan preciso debe ser. Por ejemplo, en estudios científicos, es posible que el R cuadrado deba estar por encima de 0,95 para que un modelo de regresión se considere confiable. En otros dominios, un R cuadrado de solo 0,3 puede ser suficiente si existe una variabilidad extrema en el conjunto de datos.

Para averiguar qué se considera un valor de R cuadrado «bueno», deberá explorar qué valores de R cuadrado son generalmente aceptados en su campo de estudio particular. Si está realizando un análisis de regresión para un cliente o una empresa, es posible que pueda preguntarles qué se considera un valor R cuadrado aceptable.

Intervalos de predicción

Un intervalo de predicción especifica un rango en el que podría caer una nueva observación, según los valores de las variables predictoras. Los intervalos de predicción más estrechos indican que las variables predictoras pueden predecir la variable de respuesta con más precisión.

A menudo, un intervalo de predicción puede ser más útil que un valor R cuadrado porque le brinda un rango exacto de valores en los que podría caer una nueva observación. Esto es particularmente útil si su objetivo principal de regresión es predecir nuevos valores de la variable de respuesta.

Por ejemplo, suponga que un tamaño de población de 40.000 produce un intervalo de predicción de 30 a 35 floristerías en una ciudad en particular. Esto puede o no ser considerado un rango de valores aceptable, dependiendo de para qué se esté usando el modelo de regresión.

Conclusión

En general, cuanto mayor sea el valor de R cuadrado, más precisamente las variables predictoras pueden predecir el valor de la variable de respuesta.

Qué tan alto debe ser un valor R cuadrado para ser considerado «bueno» varía según el campo. Algunos campos requieren mayor precisión que otros.

Para averiguar qué se considera un valor R cuadrado «bueno», considere lo que se acepta generalmente en el campo en el que está trabajando, pregunte a alguien con conocimientos específicos del área temática o pregúntele al cliente / empresa a la que está realizando el análisis de regresión. por lo que consideran aceptable.

Si está interesado en explicar la relación entre el predictor y la variable de respuesta, el R cuadrado es en gran medida irrelevante ya que no afecta la interpretación del modelo de regresión.

Si está interesado en predecir la variable de respuesta, los intervalos de predicción son generalmente más útiles que los valores de R-cuadrado.

Otras lecturas:

Introducción al coeficiente de correlación de Pearson
a la regresión lineal simple

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Los archivos de Excel son una de las formas más comunes de almacenar datos. Afortunadamente, la función de pandas read_excel…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!