Diagrama de caja
Un diagrama de caja, del inglés, boxplot, es una representación de una variable cuantitativa o categórica con el propósito de identificar rápidamente los cuartiles del conjunto de datos.
En otras palabras, un diagrama de caja es un gráfico que representa una variable cuantitativa o cualitativa a través de los cuartiles.
En estadística, es una herramienta útil para representar conjuntos de datos tanto discretos como continuos.
Es importante tener en cuenta que las variables variables cualitativas o que pretenden representar un orden o una categoría siempre tienen que ir ligadas a un índice numérico mayor que 0 para que puedan aparecer en el gráfico y se puedan calcular los estadísticos correspondientes.
Diagrama de caja e histograma
Un diagrama de caja no es nada más que un histograma visto por encima y, de la misma forma, un histograma es un diagrama de caja visto desde un lado. A continuación, se puede ver un ejemplo.
La primera característica que comparten ambos gráficos es el mínimo y el máximo del conjunto de datos. Las barras del extremo después de los guiones indican el mínimo (barra inferior) y el máximo (barra superior). Los datos atípicos estarían representados fuera del intervalo del máximo y el mínimo. Es decir, más allá de las barras después de los guiones. También podemos encontrar diagramas de caja horizontales.
A simple vista se puede ver que la mayoría de datos se centra en las observaciones cerca del mínimo en ambos gráficos. Esto está indicado por el diagrama de caja en que la caja está más cerca del mínimo que del máximo. Si miramos al histograma, veremos que las observaciones con más frecuencia son las observaciones que se sitúan cerca del mínimo y lejos del máximo.
Información del diagrama de caja
La información que proporciona el diagrama de caja es la siguiente:
- La parte inferior de la caja es el primer cuartil (Q1).
- La barra del medio de la caja es la mediana o segundo cuartil (Q2).
- La parte superior de la caja es el tercer cuartil (Q3).
- El rango intercuartílico o RIC sería la altura de la caja, es decir, la diferencia entre Q3 y Q1.
Clave del diagrama de caja
Esta representación gráfica recibe el nombre de diagrama de caja porque se parece a una caja. Por tanto, para recordar este gráfico, solo tendríamos que pensar en un objeto cuadrado o una caja.
Para los lectores que estén familiarizados con la cotización de los activos financieros, verán más similitud hacia una vela. Las velas que ven en la cotización son diagramas de caja ajustados a la ventana temporal escogida.
Ventajas y desventajas del diagrama de caja
Entre las ventajas y desventajas de este diagrama nos encontramos con las siguientes:
Ventajas
- Visión globalizada de la frecuencia absoluta de una variable cuantitativa o cualitativa.
- Conocimiento del mínimo, máximo y cuartiles del conjunto de datos sin tener que calcularlos.
- Reconocimiento de los valores extremos más rápido que con un histograma debido a que los valores extremos están indicados con circunferencias fuera del máximo y mínimo.
Desventajas
- Si el conjunto de datos es pequeño, hacer un diagrama de caja para expresar esos datos hará más difícil su comprensión.
Ejemplo de diagrama de caja
Suponemos que queremos representar el número de ciclistas que pasan por delante de nuestra casa a lo largo de un año. Primero, contamos los ciclistas y recogemos la información en una tabla.
A través de algunas programas como R o Excel podemos generar el gráfico que se muestra a continuación.
Gracias a representar el número de ciclistas a través del diagrama de caja podemos intuir rápidamente donde está la mediana, los otros cuartiles, el máximo y el mínimo. En este caso no tenemos datos atípicos dado que más allá del máximo y del mínimo no hay nada.
Es muy común la aplicación de este tipo de gráfico dada su simplicidad y utilidad en muchos ámbitos más allá de las finanzas y la economía.