Error estándar

El error estándar de una estadística (como la media, vari ance, mediana, etc.) es una medida de variabilidad; un error estándar más alto indica que los datos están más dispersos. Más específicamente, el error estándar es la desviación estándar de una distribución muestral. Una distribución de muestreo es una distribución de probabilidad de una estadística obtenida de un gran número de muestras (del mismo tamaño) de una población específica .

Como ejemplo simple, imagine una población de 5 estudiantes cuyos pesos sean de 100 libras, 110 libras, 120 libras, 130 libras y 140 libras. La media de la población se puede calcular como:

Dado que se toman 5 muestras de 2 estudiantes cada una y se calculan sus medias muestrales, a continuación se muestra una posible distribución muestral:

MuestraEjemplo de media
100; 110105
100; 140120
130; 140135
100; 110105
120; 130125

Observe que algunas de las medias de la muestra están más cerca de la media de la población que otras. A partir de esta información, podríamos calcular el error estándar de la media para esta distribución muestral, lo que proporcionaría una estimación de qué tan lejos es probable que esté la media de la muestra de la media de la población. Los diferentes tamaños de muestra proporcionarán diferentes distribuciones de muestreo. En este caso, la población es muy pequeña, pero en la mayoría de los casos es probable que la población sea demasiado grande para determinar las estadísticas de población y será necesario seleccionar un tamaño de muestra adecuado. En general, cuanto mayor sea el tamaño de la muestra, con mayor precisión una estadística de muestra representará la estadística de población correspondiente.

Error estándar de la media

El error estándar se puede calcular para varias estadísticas. El error estándar de la media (SEM) es un estadístico comúnmente calculado que se utiliza para calcular otros estadísticos, como intervalos de confianza y valores p. Otros incluyen el error estándar de la varianza, la mediana y más. La fórmula utilizada para calcular el SEM depende de si se conoce la desviación estándar de la población o la desviación estándar de la muestra. En la mayoría de los casos, la desviación estándar de la población no se conoce (no es factible, tiene un costo prohibitivo, etc.), por lo que se usa la desviación estándar de la muestra. Sin embargo, si se conoce la desviación estándar de la población, se puede calcular un SEM exacto mediante la fórmula

donde σ es la desviación estándar de la población y n es el tamaño de la muestra.

En los casos en los que no se conoce la desviación estándar de la población, el error estándar se puede calcular mediante la fórmula

donde s es la desviación estándar de la muestra y n es el tamaño de la muestra. Tenga en cuenta que, en cualquier caso, cuanto mayor sea el tamaño de la muestra, menor será el error estándar. A medida que n se acerca al tamaño de la población N, el error estándar de la media disminuirá. Si el tamaño de la muestra es igual al de la población, el error estándar de la media será 0.

Ejemplo

15.000 estudiantes asisten a una universidad local. Se toman 5 muestras aleatorias de las alturas de 100 estudiantes y se calcula la media de cada muestra. La distribución muestral de la media para un tamaño de muestra de 100 se muestra a continuación.

MuestraMedia de la muestra (en)
1x 1 =69.4
2x 2 =66.2
3x 3 =67.8
4x 4 =71.4
5x 5 =69.5

Busque el SEM.

No se conoce la desviación estándar de la población, por lo que utilizamos la siguiente fórmula:

La desviación estándar de la muestra se calcula mediante la fórmula

La media de la distribución muestral es:

Por lo tanto, la desviación estándar de la muestra es

y el SEM se puede calcular como:

Este valor significa que la media de la muestra normalmente variará en ~ 0,87 pulgadas en relación con la media de la población.

Dado que el error estándar es la desviación estándar de una distribución de muestreo, se puede usar para determinar intervalos de confianza. La altura sigue una distribución normal y, para una distribución normal, el 95% de los valores estarán dentro de 1,96 (~ 2) desviaciones estándar de la media. Por lo tanto, dado que el error estándar de la media es 0.87, podemos estimar que el 95% de las medias de cualquier muestra dada estará dentro de 2 desviaciones estándar (0.87 × 2=1.74) de la media poblacional. En otras palabras, para cualquier media de muestra dada, x , el intervalo

x ± 1,74 pulgadas

incluirá la media de la población el 95% del tiempo.

IFAST