Diagrama de caja
¿Qué es un diagrama de caja?
Un diagrama de caja, también conocido como box plot o gráfico de caja y bigotes, es una representación gráfica que resume un conjunto de datos a través de cinco números clave:
- Mínimo: El valor más pequeño del conjunto de datos.
- Primer cuartil (Q1): Separa el 25% inferior de los datos.
- Mediana (Q2): Divide los datos en dos partes iguales.
- Tercer cuartil (Q3): Separa el 25% superior de los datos.
- Máximo: El valor más grande del conjunto de datos.
- Ordenar los datos: Lo primero es ordenar los datos de menor a mayor.
- Identificar los cinco números clave: Calcular el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.
- Dibujar una recta numérica: Trazar una recta numérica horizontal o vertical que abarque el rango de los datos.
- Dibujar la caja: La caja se construye entre el primer y el tercer cuartil. La mediana se representa dentro de la caja como una línea vertical.
- Dibujar los bigotes: Los bigotes se extienden desde la caja hasta el mínimo y el máximo, respectivamente. Sin embargo, a veces se utilizan límites para los bigotes, como 1.5 veces el rango intercuartílico (IQR), para identificar valores atípicos.
¿Qué información nos proporciona un diagrama de caja?
- Dispersión de los datos: La longitud de la caja indica la dispersión de los datos centrales (50% del conjunto).
- Asimetría: Si la mediana está más cerca del primer cuartil, la distribución es asimétrica a la derecha. Si está más cerca del tercer cuartil, es asimétrica a la izquierda.
- Valores atípicos: Los valores que se encuentran fuera de los bigotes se consideran valores atípicos.
- Comparación de grupos: Se pueden comparar múltiples conjuntos de datos utilizando diagramas de caja paralelos.
Ejemplo práctico:
Imagina que tenemos los siguientes datos de las edades de un grupo de estudiantes:
20, 22, 23, 24, 25, 26, 27, 28, 30
- Ordenamos los datos: 20, 22, 23, 24, 25, 26, 27, 28, 30
- Identificamos los cinco números clave:
- Mínimo: 20
- Q1: 23
- Mediana: 25
- Q3: 27
- Máximo: 30
- Dibujamos la recta numérica y la caja.
- Dibujamos los bigotes.
Rango intercuartílico.
El rango intercuartílico es una medida de dispersión que nos indica qué tan dispersos están los datos centrales de un conjunto. En otras palabras, nos dice cuán separados están el primer cuartil (Q1) y el tercer cuartil (Q3) de un conjunto de datos.
¿Cómo se calcula el IQR?
- Ordenar los datos: Lo primero que debes hacer es ordenar tus datos de menor a mayor.
- Identificar los cuartiles:
- Primer cuartil (Q1): Es el valor que separa el 25% inferior de los datos.
- Tercer cuartil (Q3): Es el valor que separa el 25% superior de los datos.
- Calcular el IQR: Una vez que tienes Q1 y Q3, el IQR se calcula restando Q1 de Q3:
- IQR = Q3 - Q1
Ejemplo:
Imagina que tenemos los siguientes datos que representan las calificaciones de un examen de 20 estudiantes:
50, 62, 75, 80, 82, 85, 87, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100
1. Ordenamos los datos:
50, 62, 75, 80, 82, 85, 87, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100
2. Identificamos los cuartiles:
- Q1: La posición de Q1 es 0.25 * 20 = 5. Entonces, Q1 es el promedio entre el quinto y sexto valor: (82 + 85) / 2 = 83.5
- Q3: La posición de Q3 es 0.75 * 20 = 15. Entonces, Q3 es el promedio entre el decimoquinto y decimosexto valor: (95 + 96) / 2 = 95.5
3. Calculamos el IQR:
IQR = Q3 - Q1 = 95.5 - 83.5 = 12
Interpretación del resultado:
- IQR = 12: Esto significa que el 50% central de las calificaciones se encuentra dentro de un rango de 12 puntos. En otras palabras, la mitad de los estudiantes obtuvo una calificación entre 83.5 y 95.5.
- Dispersión: Un IQR de 12 indica una dispersión moderada en las calificaciones centrales. Esto sugiere que hay cierta variabilidad en las notas de los estudiantes que se encuentran en la mitad del grupo.
- Comparación: Si comparamos este IQR con otro grupo de estudiantes, podríamos inferir si las calificaciones de un grupo son más homogéneas o heterogéneas que las del otro.
¿Qué podemos concluir de este ejemplo?
- La mayoría de los estudiantes obtuvieron calificaciones altas (a partir de 83.5).
- Hay una menor concentración de calificaciones bajas en comparación con las altas.
- La dispersión de las calificaciones centrales es moderada, lo que indica que hay una cierta variabilidad en el desempeño de los estudiantes.
¿Qué pasa si el IQR fuera más pequeño?
Si el IQR fuera más pequeño, significaría que las calificaciones centrales están más agrupadas, es decir, hay menos dispersión entre ellas. Esto indicaría un desempeño más homogéneo de los estudiantes en la mitad del grupo.
¿Qué pasa si el IQR fuera más grande?
Si el IQR fuera más grande, significaría que las calificaciones centrales están más dispersas, es decir, hay mayor variabilidad entre ellas. Esto indicaría un desempeño más heterogéneo de los estudiantes en la mitad del grupo.
¿Por qué es importante el IQR?
- Robustez: El IQR es menos sensible a los valores atípicos que otras medidas de dispersión como el rango, ya que se basa en los cuartiles centrales.
- Complemento de la mediana: Al igual que la mediana, el IQR es una medida de posición y dispersión que no se ve afectada por valores extremos.
- Identificación de valores atípicos: Podemos utilizar el IQR para identificar valores atípicos, ya que aquellos que se encuentren fuera del rango (Q1 - 1.5IQR, Q3 + 1.5IQR) se consideran potencialmente atípicos.
En resumen:
El rango intercuartílico es una herramienta útil para analizar la dispersión de los datos y comparar diferentes conjuntos de datos. Al interpretar el IQR, podemos obtener una idea de la homogeneidad o heterogeneidad de un conjunto de datos y realizar comparaciones significativas.
¿Qué es un valor atípico?
Un valor atípico es una observación que se encuentra significativamente alejada del resto de los datos. Estos valores pueden ser extremadamente altos o extremadamente bajos en comparación con el resto del conjunto de datos.
Métodos para identificar valores atípicos:
Existen varios métodos para identificar valores atípicos, pero uno de los más comunes es utilizando el rango intercuartílico (IQR).
- Cálculo del IQR:
- Como ya hemos visto, el IQR se calcula restando el primer cuartil (Q1) del tercer cuartil (Q3):
- IQR = Q3 - Q1
- Como ya hemos visto, el IQR se calcula restando el primer cuartil (Q1) del tercer cuartil (Q3):
- Determinación de los límites:
- Se establecen dos límites:
- Límite inferior: Q1 - 1.5 * IQR
- Límite superior: Q3 + 1.5 * IQR
- Se establecen dos límites:
- Identificación de valores atípicos:
- Cualquier valor que se encuentre por debajo del límite inferior o por encima del límite superior se considera un valor atípico.
Ejemplo:
Consideremos nuevamente el conjunto de datos de calificaciones:
50, 62, 75, 80, 82, 85, 87, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100
- Ya calculamos que Q1 = 83.5 y Q3 = 95.5, por lo tanto, IQR = 12.
- Límite inferior: 83.5 - 1.5 * 12 = 65.5
- Límite superior: 95.5 + 1.5 * 12 = 113.5
En este caso, la calificación de 50 y 62 es menor que el límite inferior, por lo que se considera valores atípicos.
¿Por qué es importante identificar valores atípicos?
- Influencia en los resultados: Los valores atípicos pueden sesgar los resultados de los análisis estadísticos, como la media y la desviación estándar.
- Causas subyacentes: A veces, los valores atípicos pueden indicar errores en la recopilación de datos o condiciones especiales que requieren una investigación más profunda.
- Decisiones basadas en datos: Es importante identificar y tratar los valores atípicos antes de tomar decisiones basadas en los datos.
¿Qué hacer con los valores atípicos?
Una vez que se identifican los valores atípicos, se pueden tomar diferentes acciones:
- Eliminar: Si se determina que un valor atípico es un error de medición o un dato incorrecto, se puede eliminar del conjunto de datos.
- Mantener: Si se considera que el valor atípico es válido y relevante, se puede mantener en el análisis.
- Transformar: En algunos casos, se puede transformar el valor atípico para reducir su impacto en el análisis.
Otros métodos para identificar valores atípicos:
- Diagramas de caja: Los diagramas de caja pueden ayudar a visualizar los valores atípicos.
- Z-scores: Los valores atípicos pueden identificarse como aquellos que tienen un valor absoluto de z-score mayor que un umbral determinado (ejemplo, mayor que 3 o menor que -3).
- Métodos basados en densidad: Se pueden utilizar métodos basados en la densidad de los datos para identificar valores que se encuentran en regiones de baja densidad.
Comentarios
Publicar un comentario