Cómo realizar la prueba Goldfeld-Quandt en R

La prueba de Goldfeld-Quandt se utiliza para determinar si la heterocedasticidad está presente en un modelo de regresión.

La heterocedasticidad se refiere a la dispersión desigual de los residuos en diferentes niveles de una variable de respuesta en un modelo de regresión.

Si hay heterocedasticidad, esto viola uno de los supuestos clave de la regresión lineal de que los residuos están igualmente dispersos en cada nivel de la variable de respuesta.

Este tutorial proporciona un ejemplo paso a paso de cómo realizar la prueba de Goldfeld-Quandt en R para determinar si la heteroscedasticidad está presente en un modelo de regresión dado.

Paso 1: crear un modelo de regresión

Primero, crearemos un modelo de regresión lineal múltiple utilizando el conjunto de datos mtcars integrado en R:

#ajustar un modelo de regresión
modelo <- lm (mpg ~ disp + hp, data = mtcars)

#ver resumen de
 resumen del modelo (modelo)

Coeficientes:
             Estimar Std. Valor t de error Pr (> | t |)    
(Intercepción) 30.735904 1.331566 23.083 <2e-16 ***
disp -0.030346 0.007405 -4.098 0.000306 ***
CV -0,024840 0,013385 -1,856 0,073679.  
---
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0,1 pulg. 1

Error estándar residual: 3,127 en 29 grados de libertad
R cuadrado múltiple: 0,7482, R cuadrado ajustado: 0,7309 
Estadístico F: 43,09 en 2 y 29 DF, valor de p: 2,062e-09

Paso 2: Realice la prueba de Goldfeld-Quandt

A continuación, usaremos la función gqtest () del paquete lmtest para realizar la prueba Goldfeld-Quandt para determinar si hay heterocedasticidad.

Esta función utiliza la siguiente sintaxis:

gqtest (modelo, orden por, datos, fracción)

dónde:

  • modelo: El modelo de regresión lineal creado por el comando lm ().
  • order.by: las variables predictoras del modelo.
  • data: el nombre del conjunto de datos.
  • fracción *: el número de observaciones centrales que se eliminarán del conjunto de datos.

* La prueba Goldfeld-Quandt funciona eliminando algunas observaciones ubicadas en el centro del conjunto de datos y luego probando para ver si la dispersión de los residuos es diferente de los dos conjuntos de datos resultantes que están a ambos lados de las observaciones centrales.

Por lo general, optamos por eliminar alrededor del 20% del total de observaciones. En este caso, mtcars tiene 32 observaciones en total, por lo que podemos elegir eliminar las 7 observaciones centrales:

#cargar biblioteca lmtest
biblioteca (lmtest)

#realice la prueba Goldfeld Quandt
gqtest (modelo, pedido por = ~ disp + hp, datos = mtcars, fracción = 7)

	Prueba de Goldfeld-Quandt

modelo de datos
GQ = 1.0316, gl1 = 10, gl2 = 9, valor p = 0.486
hipótesis alternativa: la varianza aumenta del segmento 1 al 2

A continuación se explica cómo interpretar la salida:

  • La estadística de prueba es 1.0316 .
  • El valor p correspondiente es 0,486 .

La prueba de Goldfeld-Quandt utiliza las siguientes hipótesis nulas y alternativas:

  • Nulo (H 0 ) : hay homocedasticidad.
  • Alternativa (H A ): Hay heterocedasticidad.

Dado que el valor p no es menor que 0.05, no rechazamos la hipótesis nula. No tenemos evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión.

Qué hacer a continuación

Si no rechaza la hipótesis nula de la prueba de Goldfeld-Quandt, la heterocedasticidad no está presente y puede proceder a interpretar el resultado de la regresión original.

Sin embargo, si rechaza la hipótesis nula, esto significa que la heterocedasticidad está presente en los datos. En este caso, los errores estándar que se muestran en la tabla de salida de la regresión pueden no ser confiables.

Hay un par de formas comunes de solucionar este problema, que incluyen:

1. Transforme la variable de respuesta.

Puede intentar realizar una transformación en la variable de respuesta, como tomar el registro, la raíz cuadrada o la raíz cúbica de la variable de respuesta. Normalmente, esto puede hacer que desaparezca la heterocedasticidad.

2. Utilice regresión ponderada.

La regresión ponderada asigna un peso a cada punto de datos en función de la varianza de su valor ajustado. Esencialmente, esto da pequeños pesos a los puntos de datos que tienen variaciones más altas, lo que reduce sus residuos al cuadrado.

Cuando se utilizan los pesos adecuados, la regresión ponderada puede eliminar el problema de la heterocedasticidad.

Recursos adicionales

Cómo realizar una regresión lineal múltiple en R
Cómo realizar la prueba de White en R
Cómo realizar una prueba de Breusch-Pagan en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

En estadística, la correlación se refiere a la fuerza y ​​dirección de una relación entre dos variables. El valor de…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!