¿Qué son los residuos en las estadísticas?

Un residual es la diferencia entre un valor observado y un valor predicho en el análisis de regresión .

Se calcula como:

Residual = Valor observado – Valor previsto

Recuerde que el objetivo de la regresión lineal es cuantificar la relación entre una o más variables predictoras y una variable de respuesta . Para hacer esto, la regresión lineal encuentra la línea que mejor se «ajusta» a los datos, conocida como la línea de regresión de mínimos cuadrados .

Esta línea produce una predicción para cada observación en el conjunto de datos, pero es poco probable que la predicción realizada por la línea de regresión coincida exactamente con el valor observado.

La diferencia entre la predicción y el valor observado es el residual. Si graficamos los valores observados y superponemos la línea de regresión ajustada, los residuos para cada observación serían la distancia vertical entre la observación y la línea de regresión:

Ejemplo de residual en estadística

Una observación tiene un residuo positivo si su valor es mayor que el valor predicho realizado por la línea de regresión.

Por el contrario, una observación tiene un residuo negativo si su valor es menor que el valor predicho realizado por la línea de regresión.

Residuos positivos frente a negativos

Algunas observaciones tendrán residuos positivos mientras que otras tendrán residuos negativos, pero todos los residuos sumarán cero .

Ejemplo de cálculo de residuos

Supongamos que tenemos el siguiente conjunto de datos con 12 observaciones en total:

Si usamos algún software estadístico (como R , Excel , Python , Stata , etc.) para ajustar una línea de regresión lineal a este conjunto de datos, encontraremos que la línea de mejor ajuste resulta ser:

y = 29,63 + 0,7553x

Usando esta línea, podemos calcular el valor predicho para cada valor de Y basado en el valor de X. Por ejemplo, el valor predicho de la primera observación sería:

y = 29,63 + 0,7553 * (8) = 35,67

Luego podemos calcular el residual para esta observación como:

Residual = Valor observado – Valor previsto = 41 – 35,67 = 5,33

Podemos repetir este proceso para encontrar el residuo de cada observación:

Cómo calcular los residuos

Si creamos un diagrama de dispersión para visualizar las observaciones junto con la línea de regresión ajustada, veremos que algunas de las observaciones se encuentran por encima de la línea, mientras que otras caen por debajo de la línea:

Línea de regresión con gráfico de residuos

Propiedades de los residuos

Los residuos tienen las siguientes propiedades:

  • Cada observación en un conjunto de datos tiene un residuo correspondiente. Entonces, si un conjunto de datos tiene 100 observaciones en total, el modelo producirá 100 valores predichos, lo que da como resultado 100 residuos totales.
  • La suma de todos los residuos suma cero.
  • El valor medio de los residuos es cero.

¿Cómo se utilizan los residuos en la práctica?

En la práctica, los residuos se utilizan por tres razones diferentes en la regresión:

1. Evaluar el ajuste del modelo.

Una vez que producimos una línea de regresión ajustada, podemos calcular la suma de cuadrados de los residuos (RSS) , que es la suma de todos los residuos al cuadrado. Cuanto menor sea el RSS, mejor se ajustará el modelo de regresión a los datos.

2. Verifique el supuesto de normalidad.

Uno de los supuestos clave de la regresión lineal es que los residuos se distribuyen normalmente.

Para verificar este supuesto, podemos crear una gráfica QQ, que es un tipo de gráfica que podemos usar para determinar si los residuos de un modelo siguen una distribución normal.

Si los puntos del gráfico forman aproximadamente una línea diagonal recta, se cumple el supuesto de normalidad.

Ejemplo de gráfico QQ

3. Verifique el supuesto de homocedasticidad.

Otro supuesto clave de la regresión lineal es que los residuos tienen una varianza constante en cada nivel de x. Esto se conoce como homocedasticidad. Cuando este no es el caso, se dice que los residuos sufren de heterocedasticidad .

Para comprobar si se cumple este supuesto, podemos crear un gráfico de residuos , que es un gráfico de dispersión que muestra los residuos frente a los valores predichos del modelo.

Ejemplo de gráfico de valores residuales frente a ajustados
Ejemplo de gráfico de valores residuales frente a ajustados

Si los residuos están distribuidos aproximadamente uniformemente alrededor de cero en la gráfica sin un patrón claro, entonces normalmente decimos que se cumple el supuesto de homocedasticidad.

Recursos adicionales

Introducción a la regresión lineal simple
Introducción a la regresión lineal múltiple
Los cuatro supuestos de la regresión lineal
Cómo crear una gráfica residual en Excel

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

De vez en cuando, es posible que desee comparar dos hojas de Excel diferentes para identificar las diferencias entre ellas.…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!