Cómo calcular residuos estandarizados en R

Un residual es la diferencia entre un valor observado y un valor predicho en un modelo de regresión .

Se calcula como:

Residual = Valor observado – Valor previsto

Si graficamos los valores observados y superponemos la línea de regresión ajustada, los residuos para cada observación serían la distancia vertical entre la observación y la línea de regresión:

Ejemplo de residual en estadística

Un tipo de residual que usamos a menudo para identificar valores atípicos en un modelo de regresión se conoce como residual estandarizado .

Se calcula como:

r i = e i / s (e i ) = e i / RSE√ 1-h ii

dónde:

  • e i : El i- ésimo residuo
  • RSE: el error estándar residual del modelo
  • h ii : El apalancamiento de la i- ésima observación

En la práctica, a menudo consideramos que cualquier residuo estandarizado con un valor absoluto superior a 3 es un valor atípico.

Este tutorial proporciona un ejemplo paso a paso de cómo calcular los residuos estandarizados en R.

Paso 1: ingrese los datos

Primero, crearemos un pequeño conjunto de datos para trabajar en R:

#crear datos
data <- data.frame (x = c (8, 12, 12, 13, 14, 16, 17, 22, 24, 26, 29, 30),
                   y = c (41, 42, 39, 37, 35, 39, 45, 46, 39, 49, 55, 57))

#ver datos de
 datos

    xy
1 8 41
2 12 42
3 12 39
4 13 37
5 14 35
6 16 39
7 17 45
8 22 46
9 24 39
10 26 49
11 29 55
12 30 57

Paso 2: ajustar el modelo de regresión

A continuación, usaremos la función lm () para ajustar un modelo de regresión lineal simple :

#fit model
 model <- lm (y ~ x, data = data)

#ver resumen de
 resumen del modelo (modelo) 

Llamada:
lm (fórmula = y ~ x, datos = datos)

Derechos residuales de autor:
    Mín. 1T Mediana 3T Máx. 
-8,7578 -2,5161 0,0292 3,3457 5,3268 

Coeficientes:
            Estimar Std. Valor t de error Pr (> | t |)    
(Intercepción) 29.6309 3.6189 8.188 9.6e-06 ***
x 0,7553 0,1821 4,148 0,00199 ** 
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

Error estándar residual: 4.442 en 10 grados de libertad
R cuadrado múltiple: 0,6324, R cuadrado ajustado: 0,5956 
Estadístico F: 17,2 en 1 y 10 DF, valor de p: 0,001988

Paso 3: Calcule los residuos estandarizados

A continuación, usaremos la función rstandard () incorporada para calcular los residuos estandarizados del modelo:

#calcular los residuos
 estandarizados standard_res <- rstandard (modelo)

#ver los residuos estandarizados
standard_res

          1 2 3 4 5 6 
 1,40517322 0,81017562 0,07491009 -0,59323342 -1,24820530 -0,64248883 
          7 8 9 10 11 12 
 0.59610905 -0.05876884 -2.11711982 -0.06655600 0.91057211 1.26973888

Podemos agregar los residuales estandarizados nuevamente al marco de datos original si quisiéramos:

#column vincula los residuos estandarizados de nuevo al marco de datos original
 final_data <- cbind (data, standard_res)

#ver marco de datos
    xy standard_res
1 8 41 1,40517322
2 12 42 0.81017562
3 12 39 0,07491009
4 13 37 -0,59323342
5 14 35 -1,24820530
6 16 39 -0,64248883
7 17 45 0,59610905
8 22 46 -0.05876884
9 24 39 -2,11711982
10 26 49 -0.06655600
11 29 55 0,91057211
12 30 57 1.26973888

Luego, podemos ordenar cada observación de mayor a menor de acuerdo con su residuo estandarizado para tener una idea de qué observaciones están más cerca de ser valores atípicos:

#ordenar residuos estandarizados descendentes
 final_data [ order (-standard_res),]

    xy standard_res
1 8 41 1,40517322
12 30 57 1.26973888
11 29 55 0,91057211
2 12 42 0.81017562
7 17 45 0,59610905
3 12 39 0,07491009
8 22 46 -0.05876884
10 26 49 -0.06655600
4 13 37 -0,59323342
6 16 39 -0,64248883
5 14 35 -1,24820530
9 24 39 -2,11711982

De los resultados podemos ver que ninguno de los residuales estandarizados excede un valor absoluto de 3. Por lo tanto, ninguna de las observaciones parece ser un valor atípico.

Paso 4: Visualice los residuos estandarizados

Por último, podemos crear un diagrama de dispersión para visualizar los valores de la variable predictora frente a los residuos estandarizados:

#plot predictora variable vs gráfica de residuos estandarizados
 (final_data $ x, standard_res, ylab = ' Residuales estandarizados ', xlab = ' x ')

#add línea horizontal en 0
 abline (0, 0)

Residuos estandarizados en R

Recursos adicionales

¿Qué son los residuos?
¿Qué son los residuos estandarizados?
Introducción a la regresión lineal múltiple

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La selección aleatoria y la asignación aleatoria son dos técnicas en estadística que se usan comúnmente, pero que comúnmente se…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!