¿Qué es una observación influyente en estadística?

En estadística, una observación influyente es una observación en un conjunto de datos que, cuando se elimina, cambia drásticamente las estimaciones de coeficientes de un modelo de regresión.

La forma más común de medir la influencia de las observaciones es usar la distancia de Cook , que cuantifica cuánto cambian todos los valores ajustados en un modelo de regresión cuando se elimina la i- ésima observación.

Como regla general, cualquier observación con una distancia de Cook superior a 1 se considera una observación con alto apalancamiento.

El siguiente ejemplo muestra cómo calcular e interpretar la distancia de Cook para un conjunto de datos dado para detectar posibles observaciones influyentes.

Ejemplo: detección de observaciones influyentes

Supongamos que tenemos el siguiente conjunto de datos con 14 valores:

Ahora suponga que ajustamos un modelo de regresión lineal simple . El resultado de la regresión se muestra a continuación:

Usando software estadístico, podemos calcular los siguientes valores para la distancia de Cook para cada observación:

Observe que la última observación tiene un valor significativamente mayor que 1 para la distancia de Cook, lo que nos dice que es una observación influyente.

Supongamos que eliminamos este valor del conjunto de datos y ajustamos un nuevo modelo de regresión lineal simple. El resultado de este modelo se muestra a continuación:

Observe que los coeficientes de regresión para la intersección y x cambiaron drásticamente. Esto nos dice que eliminar la observación influyente del conjunto de datos cambió por completo el modelo de regresión ajustado.

Los siguientes gráficos muestran la diferencia entre estas dos ecuaciones de regresión ajustadas:

Observe cuánto cambia la línea de regresión la única observación influyente. Al eliminar esta observación, pudimos encontrar una línea de regresión que se ajusta mucho más a los datos.

Notas

Es importante tener en cuenta que la distancia de Cook debe usarse como una forma de identificar observaciones potencialmente influyentes. Sin embargo, el hecho de que una observación sea influyente no significa necesariamente que deba eliminarse del conjunto de datos.

Primero, debe verificar que la observación no sea el resultado de un error de entrada de datos o alguna otra ocurrencia extraña. Si resulta ser un valor legítimo, puede decidir tratarlo de una de las siguientes maneras:

  • Bórralo del conjunto de datos.
  • Déjelo en el conjunto de datos.
  • Reemplácelo con un valor alternativo como la media o la mediana.

Dependiendo de su escenario específico, una de estas opciones puede tener más sentido que las otras.

Cómo calcular la distancia de Cook en la práctica

Los siguientes tutoriales explican cómo calcular la distancia de Cook para un conjunto de datos dado en Python y R:

Cómo calcular la distancia de Cook en Python
Cómo calcular la distancia de Cook en R

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Una de las métricas más comunes que se utilizan para medir la precisión del pronóstico de un modelo es MAPE…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!