Dataset

Un dataset es una colección de datos que se almacenan y organizan de forma digital para su análisis y/o procesamiento de datos.

Es decir, se trata de una manera de distribuir y ordenar datos en un espacio concreto del cual, podremos sacar conclusiones y utilidades. Esta unidad de datos son auténticos activos a nivel empresarial, ya que pueden poseer un alto valor según sea el tipo de datos que contenga.

Tipos de datasets

En el ecosistema de los datasets hay tantos tipos como empresas, es decir, cada empresa puede crear su clase de dataset adaptado a sus necesidades. Sin embargo, si los catalogamos puramente por sus características técnicas, nos podremos encontrar los siguientes tipos de datasets:

  • Numéricos: Contienen datos numéricos, como números enteros o decimales. Son útiles para el análisis estadístico y matemático.
  • De texto: Consisten en datasets que tienen como datos letras, palabras, o frases. Una de las ramas de utilización puede ser el análisis lingüístico o la minería de texto.
  • De audio: Estos datasets contienen archivos de audio digitales. Son útiles para el análisis de audio y el procesamiento del habla. Esta clase de datasets suele estar muy relacionado con la minería de texto.
  • De imágenes y video: Los datasets en cuestión contendrían imágenes y videos, y servirían para, por ejemplo, construir una biblioteca o repositorio de datos/archivos de este tipo.

También se pueden encontrar otros datasets con otras extensiones o tipos de datos, como por ejemplo de archivos puramente comprimidos o mixtos. Con archivos mixtos nos referimos a ficheros o datasets con una combinación de datos de más de una clase, ya sea números y texto, texto y audio, etc.

Datasets vs papel y boli, ventajas y desventajas

Los datasets tienen varias ventajas y desventajas sobre el uso del papel y boli para almacenar información. En este sentido, es importante saberlas de cara a evaluar, si seguir con un método de colección de datos más tradicional o ver, si en cambio, transformar este tipo de actividades a un entorno más digital es viable.

Luego, algunas de estas ventajas más destacadas son:

  • Accesibilidad: En general, se puede acceder más fácilmente desde cualquier lugar con una conexión a internet, o bien, con una red local en el caso de las empresas.
  • Escalabilidad: Es posible manejar grandes cantidades de información sin tantas limitaciones.
  • Facilidad de análisis: Los datasets pueden ser analizados rápidamente utilizando herramientas especializadas.

Por otro lado, también hay algunas desventajas al usar únicamente los datasets:

  • Coste: El almacenamiento y procesamiento de grandes cantidades de datos puede ser costoso. Aunque tener todos los datos en papel puede ser aún más costoso, depende de la tarea.
  • Seguridad: Los datasets pueden ser vulnerables a ataques cibernéticos si no se toman medidas adecuadas para protegerlos. Esto con los datos físicos plasmados en papel es más complicado, ya que no se puede extraer información de estos de forma remota.

A nivel empresarial, como se ha mencionado anteriormente, son considerados activos, y según sea el sector de la empresa (tecnológico, digital, etc.) son un elemento clave en su funcionamiento.

En definitiva, pueden proporcionar información valiosa que puede ayudar a las empresas a tomar decisiones. Esto se debe a que, en la búsqueda e interpretación de patrones y tendencias en los datos, puede hacer mejorar sus productos y servicios. Por ello, también pueden ayudar a las compañías a identificar oportunidades de mercado.

Ejemplos de repositorios de datasets

Algunos de los repositorios más conocidos en los que se pueden encontrar datasets gratuitos para su uso en investigación y análisis son:

  • Kaggle: Se trata de una plataforma online que ofrece una amplia variedad de datasets gratuitos relacionados con la ciencia de datos.
  • UCI Machine Learning Repository: La UCI Machine Learning En este caso, UCI posee una variedad de datasets gratuitos orientados al aprendizaje automático.
  • Google Dataset Search: Por último, el GDS es el motor de búsqueda especializado de Google para buscar datasets gratuitos en internet.

Aunque hay más repositorios de datasets en internet, los dos primeros mencionados son los más conocidos a nivel académico y el tercero y último, es un buen buscador de cara a realizar una búsqueda más profunda.

¿Quieres referenciar este artículo?

Jonathan Llamas , 10 de diciembre, 2023
Dataset. Economipedia.com