Outlier

Un outlier es una observación anormal y extrema en una muestra estadística o serie temporal de datos que puede afectar potencialmente a la estimación de los parámetros del mismo.

En palabras más sencillas un outlier sería una observación dentro de una muestra o una serie temporal de datos que no es consistente con el resto. Imaginemos por ejemplo que estamos midiendo la altura de los alumnos de una clase.

Imaginemos una muestra de 10 alumnos. La altura de cada uno es la siguiente:

Muestra 1
AlumnoAltura en metros
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

La media de altura de la clase sería de 1,73. Si tenemos en cuenta la altura máxima (1,85) y la altura mínima (1,62) y la distancia entre estas a la media, vemos que es de 0,113 y 0,117 respectivamente. Como podemos observar la media se sitúa aproximadamente en la mitad de intervalo y se podría considerar como una estimación bastante buena.

El efecto del outlier

Ahora pensemos en otra muestra de 10 alumnos, siendo sus alturas las siguientes:

 

Muestra 1
AlumnoAltura en metros
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

En este caso la altura media de la clase sería de 1,81. Si ahora nos fijamos en la altura máxima (2,20) y en la altura mínima (1,62) y la distancia entre estas a la media, vemos que es de 0,39 y 0,18 respectivamente. En este caso la media ya no está situada aproximadamente en la mitad del intervalo.

El efecto de las 2 observaciones más extremas (2,18 y 2,20) ha hecho que la media aritmética se haya desplazado hacia el valor máximo de la distribución.

Con este ejemplo, vemos el efecto que tienen los outliers y como pueden desvirtuar el cálculo de una media.

Cómo corregir el efecto de los outliers

En situaciones como esta en la que existen valores anormales y que se distancian sustancialmente del resto, la mediana es una mejor estimación para saber en qué punto se concentran un mayor número de observaciones.

En el caso de ambas distribuciones y dado que tenemos un número par de valores, no podemos coger exactamente el valor que parte en dos la distribución para calcular la mediana. Con lo cual tras ordenar los valores de menor a mayor, cogeríamos la quinta y sexta observación (ambas dejan 4 observaciones a cada lado) y calcularíamos la mediana como sigue:

Muestra 1:

1,75+1,72/2 = 1,73

Muestra 2:

1,79+1,71/2 = 1,75

Como vemos, en la muestra número 1, dado que no hay outliers u observaciones anormales, la mediana es 1,73 y coincide con la media. Por el contrario para la muestra 2, la media es de 1,75. Como vemos este valor se aleja más de la media de altura que era 1,81 y nos da una estimación puntual de mayor calidad para saber aproximadamente en que punto se concentra un mayor número de observaciones.

Comparte este artículo:

Si te ha gustado este artículo, te recomendamos leer:

Deja un comentario