Ciencia de datos
La ciencia de datos es una disciplina que estudia de dónde proviene una determinada base de información. Asimismo, analiza cómo pueden interpretarse y representarse dichos recursos para darles un uso productivo.
Es decir, la ciencia de datos es aquella relacionada con la gestión de bases de datos, almacenados en archivos digitales, de los cuales se puede extraer mucha información útil como indicadores estadísticos. Estos pueden ayudar, por ejemplo, a una empresa a tomar decisiones del negocio.
Asimismo, la ciencia de datos aporta herramientas que permiten no solo interpretar, sino representar, por ejemplo, en imágenes, los datos disponibles. Así, tenemos el histograma, el diagrama de barras, el gráfico circular, entre otros.
Como se puede deducir, esta ciencia es interdisciplinaria pues abarca conocimientos de matemáticas, estadística e informática, principalmente.
Ciencia de datos y tipos de datos
Cabe señalar además que la ciencia de datos puede trabajar con dos tipos de datos:
- Estructurados: Son aquellos que están organizados, como aquellas tablas con distintas columnas, cada una con una categoría diferente como: nombre, apellido, edad, número de documento de identidad, etc.
- No estructurados: Aquellos que no corresponden a un formato determinado como, por ejemplo, un texto escrito libremente. En ese caso, es necesario interpretar el contenido y extraer datos que se puedan gestionar.
Tomando en cuenta todo lo explicado, los profesionales especializados en la ciencia de datos no solo deben tener aptitudes analíticas, sino que deben ser capaces de comunicar el contenido de la información que han procesado.
Importancia de la ciencia de datos
La ciencia de datos es importante para las empresas o instituciones que deben trabajar con una gran cantidad de datos. Así, estos pueden convertirse en información valiosa.
Podemos relacionar la ciencia de datos con el Big Data que consiste en desarrollar mecanismos capaces de procesar y gestionar datos masivos que provienen de diversas fuentes. El objetivo es convertirlos en información capaz de interpretarse por el ser humano y que le ayude a tomar decisiones.
Estos datos para procesar pueden provenir de transacciones entre individuos y organizaciones (como operaciones bancarias), acciones cotidianas de las personas (como búsquedas en el Internet), máquinas (como el GPS del celular que registra en qué lugares ha estado el usuario) o información biométrica (como la huella digital).
Historia de la ciencia de datos
Se puede decir que el estadístico estadounidense John Wilder Tukey fue precursor de la ciencia de datos en los años sesenta, haciendo énfasis en la importancia de analizar datos en lugar de ensayar en modelos estadísticos.
Sin embargo, no fue hasta 1996 que el término ciencia de datos se utilizó por primera vez en el título de una conferencia, en la charla llamada: «Ciencia de datos, clasificación y métodos relacionados». Esto, en el marco de la reunión de miembros de la ‘International Federation of Classification Societies’ (IFCS) llevado a cabo en Kobe, Japón.
Otro hito importante se dio en el 2005 cuando se publicó «Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century» por The National Science Board. En ese documento se define a los científicos de datos como expertos de computación, programadores de bases de datos y software, y profesionales de otras disciplinas (como bibliotecarios y archivistas), que son cruciales para la gestión exitosa de una colección digital de datos.
Con todo, este sigue siendo un campo de estudio aún en desarrollo.