Cómo comparar diagramas de caja (con ejemplos)

Un diagrama de caja es un tipo de diagrama que muestra el resumen de cinco números de un conjunto de datos, que incluye:

  • El valor mínimo
  • El primer cuartil (el percentil 25)
  • El valor mediano
  • El tercer cuartil (el percentil 75)
  • El valor máximo

Para hacer un diagrama de caja, dibujamos una caja del primer al tercer cuartil. Luego dibujamos una línea vertical en la mediana. Por último, dibujamos “bigotes” desde los cuartiles hasta el valor mínimo y máximo.

Los diagramas de caja son útiles porque nos permiten obtener una comprensión rápida de la distribución de valores en un conjunto de datos. También son útiles para comparar dos conjuntos de datos diferentes.

Al comparar dos o más diagramas de caja, podemos responder cuatro preguntas diferentes:

1. ¿Cómo se comparan los valores medianos?Podemos comparar la línea vertical en cada cuadro para determinar qué conjunto de datos tiene un valor mediano más alto.

2. ¿Cómo se compara la dispersión? Podemos comparar la longitud de cada cuadro (que representa la distancia entre Q1 y Q3, el rango intercuartílico) para determinar qué conjunto de datos está más disperso.

3. ¿Cómo se compara la asimetría? Cuanto más cerca esté la línea vertical de Q1, más sesgado positivamente está el conjunto de datos. Cuanto más cerca esté la línea vertical del tercer trimestre, más sesgado negativamente estará el conjunto de datos.

4. ¿Hay valores atípicos presentes? En los diagramas de caja, los valores atípicos suelen estar representados por pequeños círculos que se extienden más allá de los bigotes. Una observación se define como un valor atípico si cumple uno de los siguientes criterios:

  • Una observación es menor que Q1 – 1.5 * IQR
  • Una observación es mayor que Q3 + 1.5 * IQR

El siguiente ejemplo muestra cómo comparar dos diagramas de caja diferentes y responder estas cuatro preguntas.

Ejemplo: comparación de diagramas de caja

Los siguientes conjuntos de datos muestran los puntajes del examen de los estudiantes que utilizaron una de las dos técnicas de estudio para prepararse para el examen:

Método 1:78, 78, 79, 80, 80, 82, 82, 83, 83, 86, 86, 86, 86, 87, 87, 87, 88, 88, 88, 91

Método 2:66, 66, 66, 67, 68, 70, 72, 75, 75, 78, 82, 83, 86, 88, 89, 90, 93, 94, 95, 98

Si creamos diagramas de caja para cada conjunto de datos, así se verían:

Ejemplo de comparación de diagramas de caja

Podemos comparar estos dos diagramas de caja y responder las siguientes cuatro preguntas:

1. ¿Cómo se comparan los valores medianos?La línea en el medio del diagrama de caja para el Método de estudio 1 es más alta que la línea para el Método de estudio 2, lo que indica que los estudiantes que utilizaron el Método de estudio 1 obtuvieron una puntuación media más alta en el examen.

2. ¿Cómo se compara la dispersión? El diagrama de caja del Método de estudio 2 es mucho más largo que el del Método de estudio 1, lo que indica que los puntajes del examen están mucho más repartidos entre los estudiantes que utilizaron el Método de estudio 2.

3. ¿Cómo se compara la asimetría? La línea en el medio del diagrama de caja para el Método de estudio 1 está cerca de Q3, lo que indica que la distribución de las calificaciones de los exámenes para los estudiantes que utilizaron el Método de estudio 1 está sesgada negativamente. Por el contrario, la línea en el medio del diagrama de caja para el Método de estudio 2 está cerca del centro del cuadro, lo que significa que la distribución de puntajes tiene poca desviación.

4. ¿Hay valores atípicos presentes? Ningún diagrama de caja tiene círculos pequeños que se extienden más allá de los bigotes superiores o inferiores, lo que significa que ninguno de los conjuntos de datos tenía valores atípicos claros.

Recursos adicionales

Cómo crear e interpretar diagramas de cajas en Excel
Cómo crear e interpretar diagramas de cajas en SPSS
Cómo crear múltiples diagramas de cajas en R
Cómo crear e interpretar diagramas de cajas en Stata

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Un intervalo de confianza para una proporción es un rango de valores que probablemente contenga una proporción de población con…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!