Cómo realizar pruebas de normalidad multivariante en R

Actualizado por ultima vez el 7 de mayo de 2021, por .

Cuando nos gustaría probar si una sola variable está distribuida normalmente o no, podemos crear un gráfico QQ para visualizar la distribución o podemos realizar una prueba estadística formal como una prueba de Anderson Darling o una prueba de Jarque-Bera .

Sin embargo, cuando nos gustaría probar si varias variables se distribuyen normalmente como un grupo, debemos realizar una prueba de normalidad multivariante .

Este tutorial explica cómo realizar las siguientes pruebas de normalidad multivariante para un conjunto de datos determinado en R:

  • Prueba de Mardia
  • Prueba de energía
  • Pruebas multivariadas de curtosis y sesgo

Relacionado: si quisiéramos identificar valores atípicos en una configuración multivariante, podemos usar la distancia de Mahalanobis .

Ejemplo: prueba de Mardia en R

La prueba de Mardia determina si un grupo de variables sigue una distribución normal multivariante. Las hipótesis nula y alternativa para la prueba son las siguientes:

H 0 (nulo): Las variables siguen una distribución normal multivariante.

H a (alternativa): las variables no siguen una distribución normal multivariante.

El siguiente código muestra cómo realizar esta prueba en R usando el paquete QuantPsyc :

biblioteca (QuantPsyc)

#create dataset
 set.seed (0)

datos <- data.frame (x1 = rnorm (50),
                   x2 = rnorm (50),
                   x3 = normal (50))

#realizar prueba de normalidad multivariante
mult.norm (datos) $ mult.test

          Beta-hat kappa p-val
Asimetría 1.630474 13.5872843 0.1926626
Curtosis 13,895364 -0,7130395 0,4758213

La función mult.norm () prueba la normalidad multivariante tanto en la asimetría como en la curtosis del conjunto de datos. Dado que ambos valores de p no son inferiores a .05, no rechazamos la hipótesis nula de la prueba. No tenemos evidencia para decir que las tres variables en nuestro conjunto de datos no siguen una distribución multivariante.

Ejemplo: prueba de energía en R

Una prueba de energía es otra prueba estadística que determina si un grupo de variables sigue o no una distribución normal multivariante. Las hipótesis nula y alternativa para la prueba son las siguientes:

H 0 (nulo): Las variables siguen una distribución normal multivariante.

H a (alternativa): las variables no siguen una distribución normal multivariante.

El siguiente código muestra cómo realizar esta prueba en R usando el paquete energético :

biblioteca (energía)

#create dataset
 set.seed (0)

datos <- data.frame (x1 = rnorm (50),
                   x2 = rnorm (50),
                   x3 = normal (50))

#realizar prueba de normalidad multivariante
mvnorm.etest (datos, R = 100 )

	Prueba energética de normalidad multivariante: parámetros estimados

datos: x, tamaño de muestra 50, dimensión 3, réplicas 100
Estadístico E = 0,90923, valor de p = 0,31

El valor p de la prueba es 0,31 . Dado que no es inferior a 0,05, no rechazamos la hipótesis nula de la prueba. No tenemos evidencia para decir que las tres variables en nuestro conjunto de datos no siguen una distribución multivariante.

Nota: El argumento R = 100 especifica 100 réplicas reforzadas que se utilizarán al realizar la prueba. Para conjuntos de datos con tamaños de muestra más pequeños, puede aumentar este número para producir una estimación más confiable de la estadística de prueba.

Recursos adicionales

Cómo crear e interpretar una gráfica QQ en R
Cómo realizar una prueba Anderson-Darling en R
Cómo realizar una prueba Jarque-Bera en R
Cómo realizar una prueba Shapiro-Wilk en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, es posible que desee ajustar una curva a algún conjunto de datos en Python. El siguiente ejemplo paso…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!