Cómo calcular los residuos en el análisis de regresión

La regresión lineal simple es un método estadístico que puede utilizar para comprender la relación entre dos variables, xey.

Una variable, x , se conoce como variable predictora.La otra variable, y , se conoce como variable de respuesta .

Por ejemplo, supongamos que tenemos el siguiente conjunto de datos con el peso y la altura de siete individuos:

Regresión lineal simple

Sea el peso la variable predictora y la altura la variable de respuesta.

Si graficamos estas dos variables usando un diagrama de dispersión , con el peso en el eje xy la altura en el eje y, así es como se vería:

Ejemplo de diagrama de dispersión

En la gráfica de dispersión podemos ver claramente que a medida que aumenta el peso, la altura también tiende a aumentar, pero para cuantificar realmente esta relación entre el peso y la altura, necesitamos usar la regresión lineal.

Usando la regresión lineal, podemos encontrar la línea que mejor se «ajusta» a nuestros datos:

Línea de tendencia en el diagrama de dispersión en Excel

La fórmula para esta línea de mejor ajuste se escribe como:

ŷ = segundo 0 + segundo 1 x

donde ŷ es el valor predicho de la variable de respuesta, b 0 es la intersección con el eje y, b 1 es el coeficiente de regresión y x es el valor de la variable predictora.

En este ejemplo, la línea de mejor ajuste es:

altura = 32.783 + 0.2001 * (peso)

Cómo calcular residuos

Tenga en cuenta que los puntos de datos en nuestro diagrama de dispersión no siempre caen exactamente en la línea de mejor ajuste:

Línea de tendencia en el diagrama de dispersión en Excel

Esta diferencia entre el punto de datos y la línea se llama residual . Para cada punto de datos, podemos calcular el residuo de ese punto tomando la diferencia entre su valor real y el valor predicho de la línea de mejor ajuste.

Ejemplo 1: cálculo de un residual

Por ejemplo, recuerde el peso y la altura de las siete personas en nuestro conjunto de datos:

Regresión lineal simple

El primer individuo tiene un peso de 140 libras. y una altura de 60 pulgadas.

Para averiguar la altura prevista para este individuo, podemos insertar su peso en la línea de la ecuación de mejor ajuste:

altura = 32.783 + 0.2001 * (peso)

Por lo tanto, la altura prevista de este individuo es:

altura = 32.783 + 0.2001 * (140)

altura = 60.797 pulgadas

Por lo tanto, el residuo para este punto de datos es 60 – 60,797 = -0,797 .

Ejemplo 2: Cálculo de un residual

Podemos usar exactamente el mismo proceso que usamos anteriormente para calcular el residual para cada punto de datos. Por ejemplo, calculemos el residual para el segundo individuo en nuestro conjunto de datos:

Regresión lineal simple

El segundo individuo tiene un peso de 155 libras. y una altura de 62 pulgadas.

Para averiguar la altura prevista para este individuo, podemos insertar su peso en la línea de la ecuación de mejor ajuste:

altura = 32.783 + 0.2001 * (peso)

Por lo tanto, la altura prevista de este individuo es:

altura = 32.783 + 0.2001 * (155)

altura = 63.7985 pulgadas

Por lo tanto, el residuo para este punto de datos es 62 – 63,7985 = -1,7985 .

Cálculo de todos los residuos

Usando el mismo método que los dos ejemplos anteriores, podemos calcular los residuos para cada punto de datos:

Observe que algunos de los residuos son positivos y otros negativos.Si sumamos todos los residuos, sumarán cero.

Esto se debe a que la regresión lineal encuentra la línea que minimiza los residuos cuadrados totales, razón por la cual la línea atraviesa perfectamente los datos, con algunos de los puntos de datos por encima de la línea y otros por debajo de la línea.

Visualización de residuos

Recuerde que un residuo es simplemente la distancia entre el valor real de los datos y el valor predicho por la línea de regresión de mejor ajuste. Así es como se ven esas distancias visualmente en un diagrama de dispersión:

Observe que algunos de los residuos son más grandes que otros. Además, algunos de los residuos son positivos y otros negativos, como mencionamos anteriormente.

Crear una parcela residual

El objetivo de calcular los residuos es ver qué tan bien se ajusta la línea de regresión a los datos.

Los residuos más grandes indican que la línea de regresión no se ajusta bien a los datos, es decir, los puntos de datos reales no caen cerca de la línea de regresión.

Los residuos más pequeños indican que la línea de regresión se ajusta mejor a los datos, es decir, los puntos de datos reales caen cerca de la línea de regresión.

Un tipo de gráfico útil para visualizar todos los residuos a la vez es un gráfico de residuos. Una gráfica residual es un tipo de gráfica que muestra los valores predichos contra los valores residuales para un modelo de regresión.

Este tipo de gráfico se usa a menudo para evaluar si un modelo de regresión lineal es apropiado para un conjunto de datos dado y para verificar la heterocedasticidad de los residuos.

Consulte este tutorial para descubrir cómo crear un gráfico residual para un modelo de regresión lineal simple en Excel.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, una prueba ómnibus es cualquier prueba estadística que prueba la significancia de varios parámetros en un modelo a…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!