Contenido de este artículo
- 0
- 0
- 0
- 0
La regresión es una técnica estadística que podemos utilizar para explicar la relación entre una o más variables predictoras y una variable de respuesta. El tipo más común de regresión es la regresión lineal , que usamos cuando la relación entre la variable predictora y la variable de respuesta es lineal .
Es decir, cuando la variable predictora aumenta, la variable de respuesta también tiende a aumentar. Por ejemplo, podemos usar un modelo de regresión lineal para describir la relación entre el número de horas estudiadas (variable predictiva) y la puntuación que recibe un estudiante en un examen (variable de respuesta).
Sin embargo, a veces la relación entre una variable predictora y una variable de respuesta no es lineal . Un tipo común de relación no lineal es una relación cuadrática , que puede verse como una U o una U invertida en un gráfico.
Es decir, cuando la variable de predicción aumenta, la variable de respuesta también tiende a aumentar, pero después de cierto punto la variable de respuesta comienza a disminuir a medida que la variable de predicción sigue aumentando.
Por ejemplo, podemos utilizar un modelo de regresión cuadrática para describir la relación entre el número de horas dedicadas a trabajar y los niveles de felicidad informados por una persona. Quizás cuanto más trabaja una persona, más satisfecha se siente, pero una vez que alcanza un cierto umbral, más trabajo en realidad conduce al estrés y a la disminución de la felicidad. En este caso, un modelo de regresión cuadrática se ajustaría mejor a los datos que un modelo de regresión lineal.
Veamos un ejemplo de cómo realizar una regresión cuadrática en Excel.
Regresión cuadrática en Excel
Supongamos que tenemos datos sobre la cantidad de horas trabajadas por semana y el nivel de felicidad informado (en una escala de 0 a 100) para 16 personas diferentes:
Primero, creemos un diagrama de dispersión para ver si la regresión lineal es un modelo apropiado para ajustarse a los datos.
Resalte las celdas A2: B17 . A continuación, haga clic en la pestaña INSERTAR a lo largo de la cinta superior, luego haga clic en Dispersar en el área Gráficos . Esto producirá un diagrama de dispersión de los datos:
Es fácil ver que la relación entre las horas trabajadas y la felicidad reportada no es lineal. De hecho, sigue una forma de «U», lo que lo convierte en un candidato perfecto para la regresión cuadrática .
Antes de ajustar el modelo de regresión cuadrática a los datos, necesitamos crear una nueva columna para los valores al cuadrado de nuestra variable predictora.
Primero, resalte todos los valores en la columna B y arrástrelos a la columna C.
A continuación, escriba la fórmula = A2 ^ 2 en la celda B2. Esto produce el valor 36 . A continuación, haga clic en la esquina inferior derecha de la celda B2 y arrastre la fórmula hacia abajo para completar las celdas restantes en la columna B.
A continuación, ajustaremos el modelo de regresión cuadrática.
Haga clic en DATOS en la cinta superior, luego haga clic en la opción Análisis de datos en el extremo derecho. Si no ve esta opción, primero debe instalar el paquete de herramientas de análisis gratuito .
Una vez que haga clic en Análisis de datos , aparecerá un cuadro. Haga clic en Regresión y luego en Aceptar .
A continuación, complete los siguientes valores en el cuadro Regresión que aparece. Luego haga clic en Aceptar .
Se mostrarán los siguientes resultados:
A continuación se explica cómo interpretar varios números de la salida:
R Cuadrado: también conocido como coeficiente de determinación, es la proporción de la varianza en la variable de respuesta que puede ser explicada por las variables predictoras. En este ejemplo, el R-cuadrado es 0.9092 , lo que indica que el 90.92% de la varianza en los niveles de felicidad informados se puede explicar por el número de horas trabajadas y el número de horas trabajadas ^ 2.
Error estándar: El error estándar de la regresión es la distancia promedio que los valores observados caen desde la línea de regresión. En este ejemplo, los valores observados caen un promedio de 9.519 unidades de la línea de regresión.
Estadístico F : El estadístico F se calcula como MS de regresión / MS residual. Esta estadística indica si el modelo de regresión proporciona un mejor ajuste a los datos que un modelo que no contiene variables independientes. En esencia, prueba si el modelo de regresión en su conjunto es útil. Generalmente, si ninguna de las variables predictoras del modelo es estadísticamente significativa, el estadístico F general tampoco es estadísticamente significativo. En este ejemplo, el estadístico F es 65,09 y el valor p correspondiente es <0,0001. Dado que este valor p es menor que 0.05, el modelo de regresión en su conjunto es significativo.
Coeficientes de regresión: Los coeficientes de regresión en la última tabla nos dan los números necesarios para escribir la ecuación de regresión estimada:
y sombrero = b 0 + b 1 x 1 + b 2 x 1 2
En este ejemplo, la ecuación de regresión estimada es:
nivel de felicidad informado = -30.252 + 7.173 (Horas trabajadas) -0.106 (Horas trabajadas) 2
Podemos usar esta ecuación para calcular el nivel de felicidad esperado de un individuo en función de sus horas trabajadas. Por ejemplo, el nivel de felicidad esperado de alguien que trabaja 30 horas a la semana es:
nivel de felicidad informado = -30.252 + 7.173 (30) -0.106 (30) 2 = 88.649 .
Recursos adicionales
Cómo leer e interpretar una tabla de regresión
¿Qué es un buen valor R cuadrado?
Comprensión del error estándar de la regresión
Una guía simple para comprender la prueba F de significancia general en la regresión
- https://r-project.org
- https://www.python.org/
- https://www.stata.com/
¿Te hemos ayudado?
Ayudanos ahora tú, dejanos un comentario de agradecimiento, nos ayuda a motivarnos y si te es viable puedes hacer una donación:La ayuda no cuesta nada
Por otro lado te rogamos que compartas nuestro sitio con tus amigos, compañeros de clase y colegas, la educación de calidad y gratuita debe ser difundida, recuerdalo: