TEMA 8. MEDIDAS DE TENDENCIA CENTRAL, POSICIÓN Y DISPERSIÓN.

Este tema se aplica únicamente a variables cuantitativas continuas. (edad, peso, talla, tiempo, etc.)

1. Resumen numérico de una serie estadística.

Existen tres grandes tipos de medidas estadísticas:
  • Medidas de tendencia central: dan idea del comportamiento central de los sujetos.
  • Medidas de posición: dan idea de la magnitud, tamaño o posición de las observaciones de los datos una vez que están ordenador de menor a mayor.
  • Medidas de dispersión o variabilidad: dan información acerca de la heterogeneidad de los sujetos, es decir, si son muy diferentes entre sí o no.

2. Medidas de tendencia central: 

  • Media aritmética o media: para variables cuantitativas.
Se trata del centro geométrico o de gravedad de nuestros datos. Es la suma de todos los valores de la variable observada entre el total de observaciones. Su fórmula es: x= Ʃx/n

Cuando los datos están agrupados (dos intervalos) para calcular la media utilizamos como valor de referencia de cada intervalo su marca de clase: se calcula una media aritmética ponderada que se calcula sumando la marca de clase por la frecuencia absoluta entre N.

Ejemplo:



X= marca de clase x frecuencia + marca de clase x frecuencia...// 3.5+3+4+8.../40= 4.68

  • Mediana: medida de posición y central.
Es el valor de la observación tal que deja a un 50% de los datos menor y otro 50% de los datos mayor.
- Si el número de observaciones es impar el valor de la observación será justamente la observación que ocupa la posición central. (n+1/2). Ejemplo: 1 2 3 4 5, mediana= 3
- Si el numero de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales. Ejemplo: 1 2 3 4 5 6. mediana = (3+4)/2= 3.5

*NOTA: La mediana es más robusta que la media aritmética, porque la mediana no se deja influir por los extremos y la media varía mucho con cualquier valor.

  • Propiedad: Solo tiene en cuenta la posición de los valores de la muestra y por tanto tiene mucho mejor comportamiento que la media cuando hay observaciones extremas.
  • Moda: Es el valor con mayor frecuencia (que más veces se repite). Si hay más de una se dice que la muestra es bimodal (dos modas) o multimodal (más de dos modas). 
En este caso la moda se puede usar para cualquier variable tanto la cuantitativa como la cualitativa.

*Nota: la moda no es el numero más frecuente sino la categoría.

3. Medidas de posición o cuantiles.

Se calculan para variables cuantitativas y, al igual que la mediana, sólo tienen en cuenta la posición ordenada de mayor a menos de los valores en la muestra.
Los cuantiles más usuales son los, percentiles, deciles y cuartiles. Segun dividan la muestra ordenada en 100 (perciles), 10 (deciles) o 4 partes (cuartiles).

  • Percentiles:
- Dividen la muestra ordenada en 100 partes.
- Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada (Hi) sea superior al valor del percentil.
- El valor del P50 corresponde al valor de la mediana.

  • Deciles:
- Dividen la muestra ordenada en 10 partes.
- El valor del D5 corresponde al valor de la mediana y, por tanto, al del P50.

  • Cuartil:
- Dividen la muestra ordenada en 4 partes.
- El primer cuartil (Q1) indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores.
- El segundo cuartil (Q2) indica el valor que ocupa una posición en la serie numérica de forma que el 50% de las observaciones son menores y que el 50% son mayores. Por tanto, Q2 coincide con el valor D5, con el valor de la mediana P50.
- El tercer cuartil (Q3) indica el valor que ocupa en una posición en la seria numérica de forma que el 75% de las observaciones son mejores y que el 25% son mayores.
- El cuarto cuartil (Q4) indica el valor mayor que se alcanza en la serie numérica. 

4. Medidas de dispersión. 

La información aportada por las medidas de tendencia central es limitada.

Ejemplo:

Serie 1: 18,19,20,21,22.
Mediana serie 1= 20 y media =20
Serie 2: 9,14,20,27,30.
Mediana serie 2=20 y media= 20

Entonces ¿Qué es lo que las diferencia? La dispersión entre los números de cada serie.

  • Rango o recorrido: diferencia entre el mayor y el menor valor de la muestra |Xn-X1| 
  • Desviación media: media aritmética de las distancias de cada observación con respecto a la media de a muestra.
Para datos agrupados: 



  • Desviación típica o estándar: Cuantifica el error que cometemos si representamos una muestra únicamente por su media. Esta es la que más se emplea debido a que esta nos da un mayor rango de error.


Para datos agrupados: 

  • Varianza: Expresa la misma información en valores cuadráticos.
Para datos agrupados: 

  • Recorrido intercuartÍlico: Diferencia entre el tercer y el primer cuartil |Q3-Q1|
  • Coeficiente de variación: Es una medida de dispersión relativa ya que todas las demás se expresan en la unidad de medida de la variable. Nos sirve para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medida. Se expresa sin unidades.

5. Distribuciones normales.

En estadística se llama distribución normal, de Gauss o gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. 

Las distribuciones normales en un histograma aparece como una especie de campana, es simétrica respecto de los valores de posición central, es decir que la moda va a coincidir con la media y la mediana.



6. Asimetrías y curtosis.



  • Curtosis o apuntamiento de la curva.
No tiene relación con la simetría. Es el coeficiente de apuntamiento o curtosis de una variable, sirve para medir el grado de concentración de los valores que toma en torno a su media. Los datos se acumulan mucho, mientras más se acumulen, más apuntada es la curva. 


Los resultados pueden ser los siguientes:

- g2=0 (distribución mesocúrtica o normal). Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
- g2>0 (distribución leptocúrtica). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
- g2<0 (distribución platicúrtica). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.


Comentarios

Entradas populares de este blog

TEMA 10. HIPÓTESIS ESTADÍSTICA. TEST DE HIPÓTESIS.

SEMINARIO 4

TEMA 7. INTRODUCCIÓN A LA BIOESTADÍSTICA.