Proceso KDD
El Proceso KDD es un proceso iterativo que se utiliza para extraer información útil y valiosa de grandes conjuntos de datos.
En otras palabras, el proceso KDD (del inglés, Knowledge Discovery in Databases) implica la identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos objeto de estudio.
Este tipo de procesos y métodos son muy comunes de utilizar en departamentos de Big Data y análisis de datos, donde tratan y estudian grandes conjuntos de datos provenientes, a menudo, de bases de datos internas.
Características y utilidades
El proceso KDD se utiliza en entornos tecnológicos, donde los datos son un activo a tener en cuenta, la empresa. Si bien es cierto que los datos deben ser tratados por casi todo tipo de empresas para ganar eficiencia y eficacia de las decisiones, es más necesario en algunos tipos de empresas que en otras.
Por tanto, para identificar las utilidades del proceso, a continuación se exponen las siguientes características que posee:
- Provee de novedades: Al identificar patrones válidos y potencialmente útiles, provee de datos o métricas nuevas para su estudio y tratamiento.
- Expone información: Dado un gran conjunto de datos, es complicado extraer información de forma directa. Su tratamiento vía proceso KDD es ideal para simplificar y limpiar el conjunto de datos.
- Eficiencia en el rendimiento: Si combinamos el conseguir nuevos patrones y extraer información de grandes conjuntos de datos, se obtendrá una ganancia en eficiencia en el proyecto en cuestión.
Así pues, el proceso KDD es un ‘todo’ en el cual, según sea su aplicación, se obtendrán una serie de resultados.
Fases del proceso KDD
En lo que respecta a las fases del proceso KDD, consta de las siguientes:
- Selección: Se seleccionan los datos relevantes para el análisis a partir de una o varias fuentes de datos.
- Preprocesamiento: Preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores.
- Transformación: Se transforman los datos en una forma adecuada para su posterior análisis.
- Minería de datos: Tratamos de aplicar métodos eficaces con el objetivo de extraer patrones previamente desconocidos o nuevos, para averiguar contenidos ocultos en los datos.
- Evaluación e implantación: En esta última fase, se evalúan los resultados obtenidos y se implantan las soluciones encontradas.
También es válido según la necesidad del proyecto, prescindir de alguna fase o añadir alguna que dé un valor adicional al estudio.
Ejemplos de uso del proceso KDD
Algunos de los ejemplos que se pueden mencionar en la aplicación y uso del proceso KDD son:
- Banca: Identifica correlaciones en grandes conjuntos de datos financieros con el fin de detectar fraudes y mejorar la toma de decisiones financieras.
- Industria: Se utiliza para identificar patrones en grandes conjuntos de datos relacionados con la producción con la meta de mejorar la eficiencia y reducir costos.
- Investigación científica: Se emplea para averiguar nuevas relaciones entre los datos en grandes conjuntos de datos científicos, con el objetivo de descubrir nuevas teorías o mejorar las ya existentes.
Estos son algunos de los sectores a modo de ejemplo en el que se puede implantar el proceso, pero es posible emplearlo allá donde los datos estén presentes y posean una cierta importancia en la empresa o proyecto en cuestión.