Varianza de la muestra

Una varianza de muestra se refiere a la varianza de una muestra en lugar de la de una población . La varianza es una medida estadística de la variabilidad que indica en qué medida los datos de un conjunto varían de su media; una varianza más alta indica un rango más amplio de valores en el conjunto, mientras que una varianza más baja indica un rango más estrecho. A menudo se utiliza junto con otras medidas de tendencia central, como la media, la mediana y la moda, que a veces pueden proporcionar una representación incompleta de los datos. Por ejemplo, dos conjuntos de datos pueden tener la misma media, pero formas muy diferentes según la varianza:


En la figura anterior, ambos conjuntos de datos tienen la misma media, pero distribuciones muy diferentes. La distribución delineada en azul tiene una varianza mucho mayor que la distribución en verde. Dada solo la media de ambos conjuntos de datos, se podría concluir que los datos son iguales o muy similares, pero dada la varianza, podemos ver que los datos en realidad son bastante diferentes. Esta es una de las razones por las que es importante considerar una serie de medidas estadísticas: diferentes medidas proporcionan información diferente, y ninguna medida única realmente puede decirnos todo lo que podemos aprender de un conjunto de datos dado.

Muestra frente a población

En el contexto de las estadísticas, una población es un grupo completo de objetos u observaciones. Una población estadística no tiene por qué ser un grupo de personas; puede constar de alturas, pesos, puntuaciones de pruebas, temperaturas, etc.

Mientras que una población representa un grupo completo de objetos u observaciones, una muestra es cualquier colección más pequeña de dichos objetos u observaciones tomadas de una población. El muestreo se utiliza a menudo en experimentos estadísticos porque, en muchos casos, puede no ser práctico o incluso posible recopilar datos para una población completa. Por ejemplo, puede que no sea práctico recopilar datos de peso para todos los estudiantes que asisten a una gran universidad. Sin embargo, se pueden recopilar datos de una muestra de los estudiantes y se pueden usar medidas estadísticas (incluida la varianza) para hacer inferencias sobre el resto de la población en función de la muestra.

Fórmula de variación de muestra

La varianza de la muestra, s 2 , se puede calcular mediante la fórmula

donde x i es el elemento i th de la muestra, x es la media y n es el tamaño de la muestra.

El valor de la expresión

se denomina suma de cuadrados (SS). Es una expresión que vale la pena señalar porque se usa como parte de una serie de otras medidas estadísticas además de la varianza. Generalmente, un valor de suma de cuadrados más alto indica un mayor grado de variabilidad, mientras que un valor más bajo indica que los datos varían menos en relación con la media.

Dado que los conjuntos de datos en los experimentos suelen ser grandes, las medidas estadísticas como la varianza se suelen calcular con una calculadora o una computadora. Solo para demostrar el uso de la fórmula, a continuación se proporciona un ejemplo trabajado.

Encuentre la variación dada una muestra de la cantidad de horas de sueño que duerme un grupo de estudiantes la noche anterior a un examen:

7, 6.5, 6, 5, 5, 4, 4, 3, 3, 2.5

La media de la muestra es:

La variación es:

Por tanto, la varianza de la muestra es 2,43 horas 2 .

Observe que la variación para el ejemplo anterior es en términos de horas 2 . Uno de los inconvenientes de la varianza es que da como resultado un valor que es difícil de interpretar al pie de la letra. La desviación estándar , otra medida estadística de variabilidad, tiene en cuenta esto, ya que es la raíz cuadrada de la varianza, por lo que da como resultado unidades de medida que son consistentes con los datos.

IFAST