Cómo realizar la prueba de Grubbs en R

La prueba de Grubbs es una prueba estadística que se puede utilizar para identificar la presencia de valores atípicos en un conjunto de datos. Para utilizar esta prueba, un conjunto de datos debe tener una distribución aproximadamente normal y tener al menos 7 observaciones.

Este tutorial explica cómo realizar la prueba de Grubbs en R para detectar valores atípicos en un conjunto de datos.

Ejemplo: prueba de Grubbs en R

Para realizar la prueba de Grubbs en R, podemos usar la función grubbs.test () del paquete Outliers , que usa la siguiente sintaxis:

grubbs.test (x, type = 10, opuesto = FALSE, two.sided = FALSE)

dónde:

  • x: un vector numérico de valores de datos
  • tipo: 10 = prueba si el valor máximo es un valor atípico, 11 = prueba si tanto el valor mínimo como el máximo son valores atípicos, 20 = prueba si hay dos valores atípicos en una cola
  • opuesto: lógico que indica si desea verificar no el valor con mayor diferencia de la media, sino opuesto (el más bajo, si el más sospechoso es el más alto, etc.)
  • bilateral: valor lógico que indica si debe o no tratar la prueba como bilateral

Esta prueba utiliza las siguientes dos hipótesis:

H 0 (hipótesis nula): No hay valores atípicos en los datos.

H A (hipótesis alternativa): hay un valor atípico en los datos.

El siguiente ejemplo ilustra cómo realizar la prueba de Grubbs para determinar si el valor máximo en un conjunto de datos es un valor atípico:

#cargar biblioteca de paquetes de valores
 atípicos (valores atípicos)

#crear datos
datos <- c (5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40)

#realice la prueba de Grubbs para ver si '40' es un valor atípico
 grubbs.test (datos)

# Prueba de Grubbs para un valor atípico
#
#data: data
#G = 2.65990, U = 0.55935, valor p = 0.02398
# hipótesis alternativa: el valor más alto 40 es un valor atípico

El estadístico de prueba de la prueba es G = 2.65990 y el valor p correspondiente es p = 0.02398 . Dado que este valor es menor que 0.05, rechazaremos la hipótesis nula y concluiremos que el valor máximo de 40 es un valor atípico.

Si, en cambio, quisiéramos probar si el valor más bajo de ‘5’ era un valor atípico, podríamos usar el comando opuesto = VERDADERO :

#realice la prueba de Grubbs para ver si '5' es un valor atípico
 grubbs.test (datos, opuesto = VERDADERO )

# Prueba de Grubbs para un valor atípico
#
#data: data
#G = 1.4879, U = 0.8621, valor p = 1
# hipótesis alternativa: el valor más bajo 5 es un valor atípico

El estadístico de prueba es G = 1.4879 y el valor p correspondiente es p = 1 . Dado que este valor no es inferior a 0,05, no rechazamos la hipótesis nula. No tenemos evidencia suficiente para decir que el valor mínimo de ‘5’ es un valor atípico.

Por último, suponga que tenemos dos valores grandes en un extremo del conjunto de datos: 40 y 42. Para probar si ambos valores son valores atípicos, podríamos realizar la prueba de Grubbs y especificar ese tipo = 20 :

#create un conjunto de datos con dos valores grandes en un extremo: 40 y 42
datos <- c (5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40, 42) 

#realice la prueba de Grubbs para ver si tanto el 40 como el 42 son valores atípicos
 grubbs.test (datos, tipo = 20)

# Prueba de Grubbs para dos valores atípicos
#
#data: data
#U = 0.38111, valor p = 0.01195
# hipótesis alternativa: los valores más altos 40, 42 son valores atípicos

El valor p de la prueba es 0.01195 . Dado que esto es menor que 0.05, podemos rechazar la hipótesis nula y concluir que tenemos evidencia suficiente para decir que los valores 40 y 42 son valores atípicos.

Qué hacer si se identifica un valor atípico

Si la prueba de Grubbs identifica un valor atípico en su conjunto de datos, tiene algunas opciones:

1. Vuelva a verificar para asegurarse de que el valor no sea un error tipográfico o de entrada de datos. Ocasionalmente, los valores que aparecen como valores atípicos en los conjuntos de datos son simplemente errores tipográficos realizados por una persona al ingresar los datos. Regrese y verifique que el valor se haya ingresado correctamente antes de tomar más decisiones.

2. Asigne un nuevo valor al valor atípico . Si el valor atípico resulta ser el resultado de un error tipográfico o de entrada de datos, puede decidir asignarle un nuevo valor, como la media o la mediana del conjunto de datos.

3. Elimine el valor atípico.Si el valor es un valor atípico verdadero, puede optar por eliminarlo si tendrá un impacto significativo en su análisis general.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Una puntuación de Brier es una métrica que utilizamos en estadísticas para medir la precisión de los pronósticos probabilísticos. Por…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!