Análisis clúster
El análisis clúster es un conjunto de técnicas estadísticas multivariantes que tienen como objetivo agrupar a un conjunto de casos o individuos en conglomerados o clúster.
El análisis clúster, por tanto, es un tipo de agrupación estadística. El objetivo es conseguir que los datos de cada clúster sean lo más parecidos posible entre ellos y lo más diferentes que se pueda con relación a los otros grupos. También se puede realizar con variables.
La transformación de los datos en el análisis clúster
Uno de los problemas que nos encontramos cuando agrupamos datos es que estos, a veces, están en diferentes unidades de medida. Por ese motivo, hay que realizar un paso previo al análisis clúster que permita la agrupación.
El método más habitual es la estandarización. Esta sirve para transformar los datos, de manera que tengan unidades de medida similares. Hay que tener en cuenta dos reglas, las variables binarias no se estandarizan y, si son categóricas, se convierten en binarias (presencia/ausencia).
Métodos en el análisis clúster
Existen multitud de métodos para realizar el análisis clúster, pero en Economipedia, siguiendo el principio de sencillez que nos caracteriza, veremos de forma esquemática los más relevantes.
Métodos jerárquicos
Una primera clasificación sería en métodos jerárquicos o no jerárquicos. Los primeros agrupan a los individuos en fases jerárquicas (de ahí su nombre). De esta forma, solo un objeto cambia de grupo cada vez, permaneciendo el resto en el mismo sitio.
Estos, a su vez, se clasifican en:
Métodos aglomerativos
Consiste en agrupar los individuos en menos clúster cada vez. Se parte de un número de grupos igual al de casos y se va reduciendo.
Los más conocidos son:
- Método del vecino más próximo: En este caso, utiliza un algoritmo para agrupar los datos. Lo que busca es la distancia mínima entre los individuos más cercanos. Es muy sensible a los datos que puedan provocar el llamado «ruido». El método del vecino más alejado es similar.
- Método del promedio entre grupos: Lo que hace es calcular la media de la distancia entre los individuos de un grupo y uno de ellos en concreto. Es muy útil para reducir el llamado «ruido».
- Método de Ward: Lo que hace es sumar los cuadrados de las desviaciones entre cada individuo y la media de su clúster, para evitar la pérdida de información. Es uno de los más conocidos y tiene las ventajas del método basado en la media, pero mayor poder de discriminación.
Métodos disociativos
En este caso, lo que se hace es dividir. Se comienza con un solo clúster, y se van planteando divisiones en función de una serie de requisitos.
Los más habituales son:
- Método del promedio entre grupos, del vecino más cercano y del más alejado: Estos tres métodos son similares al caso anterior, pero usando el método disociativo. Es decir, esta vez lo que hacemos es separar y no agrupar.
- Método del centroide: Es muy utilizado en problemas de optimización de localización de instalaciones. Utiliza este tipo de análisis para encontrar las más adecuadas.
Métodos no jerárquicos
En este caso comienzan con una solución prestablecida. Este es el punto de partida para el análisis clúster. De esta forma, los grupos están establecidos de antemano y cada caso se situará en uno de ellos, en función de sus características. A su vez, podemos dividirlos en otros subgrupos.
- Métodos de reasignación: Los más relevantes son los métodos de centroides, como el k-means. Los de medioides, como el PAM. O el de las nubes dinámicas.
- Métodos directos: El más importante es el block clustering, muy utilizado en minería de datos.
- Métodos reductivos: Estos están basados en los análisis factoriales.
- Métodos de búsqueda de densidad: Por un lado estarían los de aproximaciones tipológicas, como el análisis modal. Por otro, tenemos los probabilísticos, como el de Wolf.
Ejemplos de análisis clúster
Veamos, para terminar, algunos ejemplos de aplicaciones del análisis clúster.
- Imaginemos que tenemos un grupo de países que queremos agrupar en función de ciertas variables macroeconómicas, como la inflación o el desempleo. Podemos utilizar este tipo de análisis para hacer grupos homogéneos, por ejemplo, países más o menos desarrollados.
- Otro ejemplo podrían ser una serie de consumidores con ciertas características sociodemográficas. La idea es crear grupos con individuos similares y que, a su vez, sean muy diferentes entre ellos.
- Pero además de la economía, el análisis clúster es de utilidad en otras ciencias. Por ejemplo en biología, para clasificar especies, o en geología, para hacer lo mismo con minerales.