La condición de muestra grande: definición y ejemplo

En estadística, a menudo nos interesa usar muestras para hacer inferencias sobre poblaciones a través de pruebas de hipótesis o intervalos de confianza .

La mayoría de las fórmulas que utilizamos en las pruebas de hipótesis y los intervalos de confianza suponen que una muestra dada sigue aproximadamente una distribución normal .

Sin embargo, para hacer esta suposición de manera segura, debemos asegurarnos de que el tamaño de nuestra muestra sea lo suficientemente grande. Específicamente, debemos asegurarnos de que se cumpla la condición de muestra grande .

La condición de muestra grande: el tamaño de la muestra es de al menos 30.

Nota: En algunos libros de texto, un tamaño de muestra «suficientemente grande» se define como al menos 40, pero el número 30 se usa con más frecuencia.

Cuando se cumple esta condición, se puede suponer que la distribución muestral de la media muestral es aproximadamente normal. Esta suposición nos permite usar muestras para hacer inferencias sobre las poblaciones de las que provienen.

La razón por la que se usa el número 30 se basa en el Teorema del límite central. Puede leer más sobre eso en esta publicación de blog .

Ejemplo: verificación de la condición de la muestra grande

Supongamos que cierta máquina crea galletas. La distribución del peso de estas galletas está sesgada hacia la derecha con una media de 10 onzas y una desviación estándar de 2 onzas. Si tomamos una muestra aleatoria simple de 100 galletas producidas por esta máquina, ¿cuál es la probabilidad de que el peso medio de las galletas en esta muestra sea inferior a 9,8 onzas?

Para responder a esta pregunta, podemos usar la Calculadora CDF normal , pero primero debemos verificar que el tamaño de la muestra sea lo suficientemente grande para suponer que la distribución de la media muestral es normal.

En este ejemplo, el tamaño de nuestra muestra es n = 100 , que es mucho mayor que 30. A pesar de que la verdadera distribución del peso de las cookies está sesgada hacia la derecha, dado que el tamaño de nuestra muestra es «lo suficientemente grande», podemos suponer que la distribución de la media muestral es normal. Por lo tanto, estaríamos seguros de usar la Calculadora CDF normal para resolver este problema.

Modificaciones a la condición de muestra grande

A menudo, un tamaño de muestra se considera «suficientemente grande» si es mayor o igual a 30, pero este número puede variar un poco según la forma subyacente de la distribución de la población.

En particular:

  • Si la distribución de la población es simétrica, a veces un tamaño de muestra tan pequeño como 15 es suficiente.
  • Si la distribución de la población está sesgada, generalmente se necesita un tamaño de muestra de al menos 30.
  • Si la distribución de la población es extremadamente sesgada, entonces puede ser necesario un tamaño de muestra de 40 o más.

Dependiendo de la forma de la distribución de la población, es posible que necesite más o menos de un tamaño de muestra de 30 para que se aplique el teorema del límite central.

Recursos adicionales

Introducción al teorema del límite central
Introducción a las distribuciones muestrales

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

A menudo, es posible que desee ordenar un DataFrame de pandas por una columna que contenga fechas. Afortunadamente, esto es…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!