¿Cómo afectan los valores atípicos a la media?

En estadística, la media de un conjunto de datos es el valor medio. Es útil saberlo porque nos da una idea de dónde se encuentra el «centro» del conjunto de datos. Se calcula utilizando la fórmula simple:

media = (suma de observaciones) / (número de observaciones)

Por ejemplo, supongamos que tenemos el siguiente conjunto de datos:

[1, 4, 5, 6, 7]

La media del conjunto de datos es (1 + 4 + 5 + 6 + 7) / (5) = 4.6

Pero si bien la media es útil y fácil de calcular, tiene un inconveniente: puede verse afectada por valores atípicos . En particular, cuanto más pequeño sea el conjunto de datos, más un valor atípico podría afectar la media.

Para ilustrar esto, considere el siguiente ejemplo clásico:

Diez hombres están sentados en un bar. El ingreso promedio de los diez hombres es de 50.000 dólares. De repente, un hombre sale y Bill Gates entra. Ahora el ingreso promedio de los diez hombres en el bar es de $ 40 millones.

Este ejemplo muestra cómo un valor atípico (Bill Gates) podría afectar drásticamente la media.

Valores atípicos pequeños y grandes

Un valor atípico puede afectar la media al ser inusualmente pequeño o inusualmente grande. En el ejemplo anterior, Bill Gates tenía un ingreso inusualmente alto, lo que provocó que la media fuera engañosa.

Sin embargo, un valor inusualmente pequeño también puede afectar la media. Para ilustrar esto, considere el siguiente ejemplo:

Diez estudiantes toman un examen y reciben las siguientes calificaciones:

[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]

La puntuación media es 84,6 .

Sin embargo, si eliminamos la puntuación «0» del conjunto de datos, la puntuación media se convierte en 94 .

El puntaje inusualmente bajo de un estudiante reduce la media de todo el conjunto de datos.

Tamaño de muestra y valores atípicos

Cuanto menor sea el tamaño de la muestra del conjunto de datos, más potencial tiene un valor atípico para afectar la media.

Por ejemplo, supongamos que tenemos un conjunto de datos de 100 puntajes de exámenes donde todos los estudiantes obtuvieron al menos un 90 o más, excepto un estudiante que obtuvo un cero:

[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]

La media resulta ser 93,18 . Si eliminamos el «0» del conjunto de datos, la media sería 94,12 . Ésta es una diferencia relativamente pequeña. Esto muestra que incluso un valor atípico extremo solo tiene un efecto pequeño si el conjunto de datos es lo suficientemente grande.

Cómo manejar valores atípicos

Si le preocupa que haya un valor atípico en su conjunto de datos, tiene algunas opciones:

  • Asegúrese de que el valor atípico no sea el resultado de un error de entrada de datos. A veces, una persona simplemente ingresa el valor de datos incorrecto al registrar datos. Si hay un valor atípico, primero verifique que el valor se ingresó correctamente y que no fue un error.
  • Asigne un nuevo valor al valor atípico . Si el valor atípico resulta ser el resultado de un error de entrada de datos, puede decidir asignarle un nuevo valor, como la media o la mediana del conjunto de datos.
  • Elimina el valor atípico.Si el valor es un valor atípico verdadero, puede optar por eliminarlo si tendrá un impacto significativo en su análisis general. Solo asegúrese de mencionar en su informe o análisis final que eliminó un valor atípico.

Utilice la mediana

Otra forma de encontrar el «centro» de un conjunto de datos es utilizar la mediana , que se encuentra organizando todos los valores individuales en un conjunto de datos de menor a mayor y encontrando el valor medio.

Debido a la forma en que se calcula, la mediana se ve menos afectada por los valores atípicos y hace un mejor trabajo al capturar la ubicación central de una distribución cuando hay valores atípicos presentes.

Por ejemplo, considere el siguiente cuadro que muestra los pies cuadrados de las casas en un vecindario en particular:

La media está fuertemente influenciada por un par de casas extremadamente grandes, mientras que la mediana no. Por lo tanto, la mediana hace un mejor trabajo al capturar los pies cuadrados “típicos” de una casa en este vecindario en comparación con la media.

Otras lecturas:

Medidas de tendencia central: media, mediana y moda
Prueba Q de Dixon para detectar valores atípicos Calculadora de valores atípicos

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

La prueba de Friedman es una alternativa no paramétrica al ANOVA de medidas repetidas . Se utiliza para determinar si…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!