Introducción a la regresión lineal simple

Contenido de este artículo

0.1 Encontrar la «línea de mejor ajuste»
0.2 Cómo interpretar una línea de regresión de mínimos cuadrados
0.3 Cómo utilizar la línea de regresión de mínimos cuadrados
0.4 El coeficiente de determinación
0.5 Supuestos de regresión lineal

1 Redactor del artículo

La regresión lineal simple es un método estadístico que puede utilizar para comprender la relación entre dos variables, xey.

Una variable, x , se conoce como variable predictora .

La otra variable, y , se conoce como variable de respuesta .

Por ejemplo, supongamos que tenemos el siguiente conjunto de datos con el peso y la altura de siete individuos:

Sea el peso la variable predictora y la altura la variable de respuesta.

Si graficamos estas dos variables usando un diagrama de dispersión , con el peso en el eje xy la altura en el eje y, así es como se vería:

Supongamos que estamos interesados en comprender la relación entre peso y altura. En la gráfica de dispersión podemos ver claramente que a medida que aumenta el peso, la altura también tiende a aumentar, pero para cuantificar realmente esta relación entre el peso y la altura, necesitamos usar la regresión lineal.

Usando la regresión lineal, podemos encontrar la línea que mejor se «ajusta» a nuestros datos. Esta línea se conoce como la línea de regresión de mínimos cuadrados y se puede utilizar para ayudarnos a comprender las relaciones entre el peso y la altura. Por lo general, usaría software como Microsoft Excel, SPSS o una calculadora gráfica para encontrar la ecuación de esta línea.

La fórmula para la línea de mejor ajuste se escribe como:

ŷ = segundo ₀ + segundo ₁ x

donde ŷ es el valor predicho de la variable de respuesta, b ₀ es la intersección con el eje y, b ₁ es el coeficiente de regresión y x es el valor de la variable predictora.

Relacionado: 4 ejemplos de uso de regresión lineal en la vida real

Encontrar la «línea de mejor ajuste»

Para este ejemplo, simplemente podemos conectar nuestros datos a la Calculadora de regresión lineal de estadística y presionar Calcular :

La calculadora encuentra automáticamente la línea de regresión de mínimos cuadrados :

ŷ = 32,7830 + 0,2001x

Si alejamos nuestro diagrama de dispersión de antes y agregamos esta línea al gráfico, así se vería:

Observe cómo nuestros puntos de datos se encuentran dispersos alrededor de esta línea. Esto se debe a que esta línea de regresión de mínimos cuadrados es la línea que mejor se ajusta a nuestros datos de todas las líneas posibles que pudimos dibujar.

Cómo interpretar una línea de regresión de mínimos cuadrados

A continuación se explica cómo interpretar esta línea de regresión de mínimos cuadrados: ŷ = 32.7830 + 0.2001x

b ₀ = 32,7830 . Esto significa que cuando el peso de la variable predictora es cero libras, la altura predicha es 32,7830 pulgadas. A veces, puede ser útil conocer el valor de b ₀ , pero en este ejemplo específico no tiene sentido interpretar b ₀ ya que una persona no puede pesar cero libras.

b ₁ = 0,2001 . Esto significa que un aumento de una unidad en x está asociado con un aumento de 0.2001 unidades en y . En este caso, un aumento de una libra de peso se asocia con un aumento de 0,2001 pulgadas de altura.

Cómo utilizar la línea de regresión de mínimos cuadrados

Usando esta línea de regresión de mínimos cuadrados, podemos responder preguntas como:

Para una persona que pesa 170 libras, ¿qué altura esperaríamos que mida?

Para responder a esto, simplemente podemos insertar 170 en nuestra línea de regresión para x y resolver para y:

ŷ = 32.7830 + 0.2001 (170) = 66.8 pulgadas

Para una persona que pesa 150 libras, ¿qué altura esperaríamos que mida?

Para responder a esto, podemos insertar 150 en nuestra línea de regresión para x y resolver para y:

ŷ = 32,7830 + 0,2001 (150) = 62,798 pulgadas

Precaución: Cuando use una ecuación de regresión para responder preguntas como estas, asegúrese de usar solo valores para la variable predictora que estén dentro del rango de la variable predictora en el conjunto de datos original que usamos para generar la línea de regresión de mínimos cuadrados. Por ejemplo, los pesos en nuestro conjunto de datos oscilaron entre 140 libras y 212 libras, por lo que solo tiene sentido responder preguntas sobre la altura prevista cuando el peso está entre 140 libras y 212 libras.

El coeficiente de determinación

Una forma de medir qué tan bien la línea de regresión de mínimos cuadrados «se ajusta» a los datos es usando el coeficiente de determinación , denotado como R ² .

El coeficiente de determinación es la proporción de la varianza en la variable de respuesta que puede ser explicada por la variable predictora.

El coeficiente de determinación puede variar de 0 a 1. Un valor de 0 indica que la variable de respuesta no puede ser explicada por la variable de predicción en absoluto. Un valor de 1 indica que la variable de respuesta se puede explicar perfectamente sin errores mediante la variable predictora.

Un R ² entre 0 y 1 indica qué tan bien se puede explicar la variable de respuesta mediante la variable predictora. Por ejemplo, un R ² de 0,2 indica que el 20% de la varianza en la variable de respuesta puede explicarse por la variable predictora; un R ² de 0,77 indica que el 77% de la varianza en la variable de respuesta puede explicarse por la variable predictora.

Observe que en nuestro resultado anterior obtuvimos un R ² de 0.9311, lo que indica que el 93.11% de la variabilidad en la altura se puede explicar por la variable predictora del peso:

Esto nos dice que el peso es un muy buen predictor de la altura.

Supuestos de regresión lineal

Para que los resultados de un modelo de regresión lineal sean válidos y confiables, debemos verificar que se cumplan los siguientes cuatro supuestos:

1. Relación lineal: existe una relación lineal entre la variable independiente, x, y la variable dependiente, y.

2. Independencia: Los residuos son independientes. En particular, no existe correlación entre residuos consecutivos en datos de series de tiempo.

3. Homoscedasticidad: Los residuos tienen varianza constante en cada nivel de x.

4. Normalidad: Los residuos del modelo se distribuyen normalmente.

Si se violan uno o más de estos supuestos, los resultados de nuestra regresión lineal pueden ser poco fiables o incluso engañosos.

Consulte esta publicación para obtener una explicación de cada suposición, cómo determinar si se cumple la suposición y qué hacer si se viola la suposición.

https://r-project.org
https://www.python.org/
https://www.stata.com/

Redactor del artículo

Luis Benites
Director de Statologos.com
Tengo una Maestría en Ciencias en Estadística Aplicada y he trabajado en algoritmos de aprendizaje automático para empresas profesionales tanto en el sector de la salud como en el comercio minorista.
Ver todas las entradas

Encontrar la «línea de mejor ajuste»

Cómo interpretar una línea de regresión de mínimos cuadrados

Cómo utilizar la línea de regresión de mínimos cuadrados

El coeficiente de determinación

Supuestos de regresión lineal

Redactor del artículo

Artículos relacionados:

Deja un comentario Cancelar la respuesta

You have Successfully Subscribed!