La estadística descriptiva es una rama de la estadística que, a través de herramientas como tablas, gráficos, promedios, correlaciones, etc., nos brinda los medios para utilizar , analizar, organizar y resumir el carácter eristics de un determinado conjunto de datos. Una «estadística descriptiva» también es un tipo de dato que describe o resume una colección de observaciones o información.
Entre los ejemplos de estadísticas descriptivas se incluyen:
- Un gráfico que muestra el cambio de temperatura en una región durante 1 año
- Una tabla de puntajes SAT para estudiantes de 11 ° grado en varias escuelas para un año determinado
- La altura promedio de las personas en un equipo de fútbol
A continuación, se muestran ejemplos de algunas de las herramientas clave y los temas cubiertos por las estadísticas descriptivas.
Tablas y gráficos
Las tablas y gráficos, en particular las distribuciones de frecuencia, son un aspecto importante de la estadística descriptiva. Las distribuciones de frecuencia se utilizan para imponer algún orden en la variabilidad inevitable en los datos observados para ayudarnos a determinar si hay patrones en los datos. Por ejemplo, si la distribución de los puntajes del SAT para una escuela secundaria es muy diferente a la de otras escuelas en el área, podría valer la pena intentar determinar por qué existe la discrepancia.
Dado que los gráficos pueden resumir datos de manera muy eficaz, en algunos casos un gráfico puede ser el producto final de un análisis estadístico básico.
Medidas de tendencia central
Las medidas de tendencia central, también denominadas promedios, son estadísticas descriptivas de uso común. Generalmente, una medida de tendencia central es el valor medio o típico de una distribución. Media , mediana y modo son tres medidas de central tendencia utilizada en estadística. La media es posiblemente la medida más importante, tanto en estadística descriptiva como inferencial, pero las tres tienen sus usos dependiendo de lo que se esté midiendo.
Medidas de variabilidad
Las medidas de variabilidad (también conocidas como dispersión) miden el grado en que los datos se encuentran dispersos en una distribución. Las medidas de variabilidad incluyen varianza, rango , rango intercuartil, desviación estándar y más. Estas medidas pueden proporcionar información sobre datos que las medidas de tendencia central no pueden. Por ejemplo, si nos dijeran que la profundidad media de un río de corriente rápida es de 3 metros, y que la profundidad varía entre 1 y 2 metros en cualquier dirección, es posible que no nos preocupemos demasiado que el agua sea demasiado profunda. Sin embargo, si no sabíamos esto, o sabíamos que la profundidad variaba entre 10 y 15 metros, es posible que tengamos más dudas a la hora de entrar al río. Las medidas de variabilidad pueden decirnos la cantidad de variación en un conjunto dado de valores y qué tan lejos de la media pueden desviarse.
Distribuciones normales y puntuaciones Z
Una distribución normal, también conocida como distribución gaussiana, es un tipo de distribución de probabilidad continua que comúnmente se describe con forma de campana. Representa una distribución de datos simétrica con respecto a la media. Se denomina distribución «normal» porque muchas distribuciones de frecuencia observadas en una variedad de campos y contextos exhiben una distribución normal.
Las puntuaciones Z (también denominadas puntuación estándar) indican el número de desviaciones estándar por las que un valor dado está por encima o por debajo de la media de lo que se está observando o midiendo. Una puntuación Z de 0 indica que un valor dado es idéntico a la media. Una puntuación Z negativa indica que un valor está por debajo de la media y una puntuación Z positiva indica que está por encima de la media. Cuanto mayor sea la magnitud del puntaje Z, más lejos estará el valor de la media, con un puntaje Z de 1.0 que indica que el valor es una desviación estándar de la media. Juntas, las distribuciones normales y los puntajes Z pueden brindarnos información sobre la probabilidad de que ocurra un valor/observación dado en un conjunto de datos dado.
Correlación
Otro aspecto de la estadística descriptiva es encontrar correlaciones entre pares de variables. Por ejemplo, ¿existe una correlación entre la edad y la cantidad de veces que una persona come en McDonald’s en un mes? Se pueden usar estadísticas descriptivas, particularmente el uso de diagramas de dispersión o coeficientes de correlación para determinar las respuestas a preguntas como estas.
Estadísticas descriptivas e inferenciales
El estudio de las estadísticas existe como una forma de ayudarnos a analizar y comprender mejor la variabilidad en el mundo que nos rodea. Estadísticas descriptivas es posiblemente la forma más simple de estadísticas. Nos proporciona herramientas para organizar y resumir la variabilidad en las colecciones de datos. No hay incertidumbre en la estadística descriptiva, ya que no se basa en la suposición de que un conjunto de datos representa una población más grande. Solo describe estos conjuntos de datos observados en términos de atributos como distribución (frecuencia), tendencia central (promedios) y variabilidad (dispersión).
Por el contrario, la estadística inferencial utiliza datos observados para hacer conclusiones, generalizaciones o predicciones sobre una población. Esto implica el uso de la teoría de la probabilidad, que tiene en cuenta el error de muestreo debido a que el tamaño de la muestra siempre es menor que la población que se pretende representar. Por lo tanto, la validez de las conclusiones extraídas en las estadísticas inferenciales está sujeta a factores como el tamaño de la muestra y los métodos de muestreo aleatorios utilizados. Estos son factores que no deben tenerse en cuenta al utilizar estadísticas descriptivas.
Tanto la estadística descriptiva como la inferencial se utilizan ampliamente, a menudo juntas, según la intención del estudio. Generalmente, la estadística descriptiva es útil para observar patrones en los datos, mientras que la estadística inferencial examina los datos de muestra para hacer predicciones sobre las relaciones entre las variables en los datos y cómo pueden relacionarse con la población más grande.