Cómo realizar una prueba de razón de verosimilitud en R

Una prueba de razón de verosimilitud compara la bondad de ajuste de dos modelos de regresión anidados.

Un modelo anidado es simplemente uno que contiene un subconjunto de las variables predictoras en el modelo de regresión general.

Por ejemplo, supongamos que tenemos el siguiente modelo de regresión con cuatro variables predictoras:

Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε

Un ejemplo de un modelo anidado sería el siguiente modelo con solo dos de las variables predictoras originales:

Y = β 0 + β 1 x 1 + β 2 x 2 + ε

Para determinar si estos dos modelos son significativamente diferentes, podemos realizar una prueba de razón de verosimilitud que utiliza las siguientes hipótesis nulas y alternativas:

H 0 : El modelo completo y el modelo anidado se ajustan igualmente bien a los datos. Por lo tanto, debe usar el modelo anidado .

H R : El modelo completo se ajusta a los datos significativamente mejor que el modelo anidado. Por lo tanto, debe utilizar el modelo completo .

Si el valor p de la prueba está por debajo de un cierto nivel de significancia (por ejemplo, 0.05), entonces podemos rechazar la hipótesis nula y concluir que el modelo completo ofrece un ajuste significativamente mejor.

El siguiente ejemplo muestra cómo realizar una prueba de razón de verosimilitud en R.

Ejemplo: prueba de razón de verosimilitud en R

El siguiente código muestra cómo ajustar los siguientes dos modelos de regresión en R usando datos del conjunto de datos integrado de mtcars :

Modelo completo: mpg = β 0 + β 1 disp + β 2 carb + β 3 hp + β 4 cyl

Modelo reducido: mpg = β 0 + β 1 disp + β 2 carb

Usaremos la función lrtest () del paquete lmtest para realizar una prueba de razón de verosimilitud en estos dos modelos:

biblioteca (lmtest)

#fit modelo completo
model_full <- lm (mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit modelo reducido
 model_reduced <- lm (mpg ~ disp + carb, data = mtcars)

# realizar una prueba de razón de verosimilitud para las diferencias en los modelos
 lrtest (model_full, model_reduced)

Prueba de razón de verosimilitud

Modelo 1: mpg ~ disp + carb + hp + cyl
Modelo 2: mpg ~ disp + carb
  #Df LogLik Df Chisq Pr (> Chisq)
1 6 -77.558                     
2 4 -78.603 -2 2.0902 0.3517

De la salida podemos ver que el estadístico de prueba de Chi-Cuadrado es 2.0902 y el valor p correspondiente es 0.3517 .

Dado que este valor p no es menor que .05, no rechazaremos la hipótesis nula.

Esto significa que el modelo completo y el modelo anidado se ajustan igualmente bien a los datos. Por lo tanto, deberíamos usar el modelo anidado porque las variables predictoras adicionales en el modelo completo no ofrecen una mejora significativa en el ajuste.

Luego, podríamos realizar otra prueba de razón de verosimilitud para determinar si un modelo con solo una variable predictora es significativamente diferente de un modelo con los dos predictores:

biblioteca (lmtest)

#fit modelo completo
model_full <- lm (mpg ~ disp + carb, datos = mtcars)

#ajustar modelo reducido
 model_reduced <- lm (mpg ~ disp, data = mtcars)

# realizar una prueba de razón de verosimilitud para las diferencias en los modelos
 lrtest (model_full, model_reduced)

Prueba de razón de verosimilitud

Modelo 1: mpg ~ disp + carb
Modelo 2: mpg ~ disp
  #Df LogLik Df Chisq Pr (> Chisq)   
1 4 -78.603                        
2 3-82,105 -1 7,0034 0,008136 **
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

De la salida podemos ver que el valor p de la prueba de razón de verosimilitud es 0.008136 . Dado que esto es menor que .05, rechazaríamos la hipótesis nula.

Por lo tanto, concluiríamos que el modelo con dos predictores ofrece una mejora significativa en el ajuste sobre el modelo con un solo predictor.

Así, nuestro modelo final sería:

mpg = β 0 + β 1 disp + β 2 carbohidratos

Recursos adicionales

Cómo realizar una regresión lineal simple en R
Cómo realizar una regresión lineal múltiple en R
Cómo interpretar códigos de significancia en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La distribución exponencial es una distribución de probabilidad que se usa para modelar el tiempo que debemos esperar hasta que…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!