¿Qué es una distribución abierta?

En estadística, una distribución de final abierto es una distribución de frecuencia en la que una o más clases (o «bins») son de final abierto.

Por ejemplo, la siguiente distribución de frecuencia representa una distribución abierta en la que la clase más pequeña es abierta:

Y la siguiente distribución de frecuencia muestra una distribución abierta en la que la clase más grande es abierta:

Por el contrario, una distribución de extremo cerrado es aquella en la que cada clase en la distribución de frecuencia tiene un límite superior e inferior, como los siguientes:

¿Qué causa las distribuciones abiertas?

Las distribuciones abiertas son a menudo el resultado de que los investigadores elijan recopilar datos de tal manera que una de las clases termine siendo abierta.

Por ejemplo, suponga que un investigador encuesta a los residentes de una ciudad determinada y les pregunta sobre sus ingresos familiares anuales.

El investigador puede optar por dar la respuesta más grande posible “> $ 100,000” porque sabe que los residentes de altos ingresos pueden no sentirse cómodos compartiendo cuánto ganan si es significativamente más de $ 100,000.

Por el contrario, el investigador puede optar por hacer la respuesta más pequeña posible abierta porque sabe que los residentes que ganan muy poco tampoco se sentirán cómodos compartiendo lo poco que ganan.

En pocas palabras, los investigadores a menudo incluyen clases abiertas en sus encuestas porque quieren maximizar el número de personas que se sienten cómodas respondiendo las preguntas de la encuesta.

El problema con las distribuciones abiertas

El problema con las distribuciones abiertas es que los datos verdaderos son censurados . En otras palabras, podríamos conocer la cantidad de personas que ganan más de $ 100 mil en una ciudad determinada, pero en realidad no conocemos sus ingresos anuales exactos.

Es posible que algunas personas ganen $ 150k, $ 250k, $ 500k o incluso más, pero no tenemos idea ya que cada una de estas personas solo puede indicar que gana “> $ 100,000” en la encuesta.

Debido a que los datos se censuran en distribuciones abiertas, tampoco podemos calcular la media exacta y la desviación estándar de los valores en el conjunto de datos, ya que no tenemos acceso a todos los valores de los datos sin procesar.

Cómo analizar una distribución abierta

Dado que no podemos calcular la media exacta de una distribución abierta, a menudo usamos la mediana como una medida del «centro» del conjunto de datos.

Recuerde que la mediana representa el valor medio del conjunto de datos.

Cuando trabajamos con distribuciones abiertas, podemos usar la siguiente fórmula para encontrar la mejor estimación de la mediana:

Mejor estimación de la mediana: L + ((n / 2 – F) / f) * w

dónde:

  • L: el límite inferior del grupo mediano
  • n: el número total de observaciones
  • F: la frecuencia acumulada hasta el grupo mediano
  • f: la frecuencia del grupo mediano
  • w: el ancho del grupo mediano

Por ejemplo, supongamos que tenemos la siguiente distribución abierta de antes:

Hay un total de 72 valores en el conjunto de datos. Por lo tanto, sabemos que el valor mediano se ubicará entre el valor 36º y 37º más grande del conjunto de datos. Cada uno de estos valores se encuentra dentro de la clase «$ 60,000 – $ 79,999», por lo que sabemos que el ingreso medio se encuentra dentro de este rango.

Nuestra mejor estimación de la mediana sería:

Mediana: 60,000 + ((72/2 – 25) / 19) * 19,999 = $ 71,578

Este valor representa nuestra mejor estimación del ingreso anual medio de las personas en este conjunto de datos.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

“La importancia estadística es lo menos interesante de los resultados. Debe describir los resultados en términos de medidas de magnitud,…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!