Cómo crear un histograma de residuos en R

Uno de los principales supuestos de la regresión lineal es que los residuos se distribuyen normalmente.

Una forma de comprobar visualmente este supuesto es crear un histograma de los residuos y observar si la distribución sigue una «forma de campana» que recuerda a la distribución normal .

Este tutorial proporciona un ejemplo paso a paso de cómo crear un histograma de residuos para un modelo de regresión en R.

Paso 1: crear los datos

Primero, creemos algunos datos falsos para trabajar:

#Haga que este ejemplo sea reproducible
 set.seed (0)

#crear datos
 x1 <- rnorm (n = 100, 2, 1)
x2 <- normal (100, 4, 3)
y <- normal (100, 2, 3)
data <- data.frame (x1, x2, y)

#ver las primeras seis filas del encabezado de datos
 (datos)

        x1 x2 y
1 3.262954 6.3455776 -1.1371530
2 1,673767 1,6696701 -0,6886338
3 3.329799 2.1520303 5.8081615
4 3.272429 4.1397409 3.7815228
5 2.414641 0.6088427 4.3269030
6 0,460050 5,7301563 6,6721111

Paso 2: ajustar el modelo de regresión

A continuación, ajustaremos un modelo de regresión lineal múltiple a los datos:

#ajustar modelo de modelo de regresión lineal múltiple
 <- lm (y ~ x1 + x2, data = data)

Paso 3: cree un histograma de residuos

Por último, usaremos el paquete de visualización ggplot para crear un histograma de los residuos del modelo:

#cargar
 biblioteca ggplot2 (ggplot2)

#crear histograma de residuos
ggplot (datos = datos, aes (x = modelo $ residuales)) +
    geom_histogram (relleno = ' azul acero ', color = ' negro ') +
    labs (title = ' Histograma de residuos ', x = ' Residuales ', y = ' Frecuencia ')

Histograma de residuos en R

Tenga en cuenta que también podemos especificar el número de bins en los que colocar los residuales mediante el uso del argumento bin .

Cuantos menos contenedores, más anchas serán las barras en el histograma. Por ejemplo, podríamos especificar 20 contenedores :

#crear histograma de residuos
 ggplot (datos = datos, aes (x = modelo $ residuos)) +
    geom_histogram (bins = 20 , fill = ' steelblue ', color = ' black ') +
    labs (title = ' Histograma de residuos ', x = ' Residuales ', y = ' Frecuencia ')

Histograma residual en R

O podríamos especificar 10 contenedores :

#crear histograma de residuos
 ggplot (datos = datos, aes (x = modelo $ residuos)) +
    geom_histogram (bins = 10 , fill = ' steelblue ', color = ' black ') +
    labs (title = ' Histograma de residuos ', x = ' Residuales ', y = ' Frecuencia ')

No importa cuántos bins especifiquemos, podemos ver que los residuos se distribuyen de manera aproximadamente normal.

También podríamos realizar una prueba estadística formal como Shapiro-Wilk, Kolmogorov-Smirnov o Jarque-Bera para probar la normalidad.

Sin embargo, tenga en cuenta que estas pruebas son sensibles a los tamaños de muestra grandes, es decir, a menudo concluyen que los residuos no son normales cuando el tamaño de la muestra es grande.

Por esta razón, a menudo es más fácil evaluar la normalidad creando un histograma de los residuos.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, la confiabilidad entre evaluadores es una forma de medir el nivel de acuerdo entre múltiples evaluadores o jueces.…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!