Con mucha nostalgia, recordamos cómo hace aproximadamente 25 años podíamos guardar nuestros documentos, juegos y aplicaciones en disquetes (discos flexibles), que en el mejor de los casos almacenaba 1.44 Mb. Actualmente, un teléfono portátil de 16 Gb -el más modesto de los Smartphones- almacena más de 11 mil disquetes. Esta comparación resulta sorprendente, pero es irrelevante si queremos compararla con la enorme cantidad de información que actualmente circula en Internet. Muchas organizaciones coinciden en que, hoy en día, cada persona en el mundo genera -en promedio- 1.7 Mb de información por segundo, es decir, un poco más de la información de la que guardábamos en un disquete. Esta enorme cantidad de información generada es heterogénea, es decir, de múltiples formatos, por ejemplo, fotografías, posiciones GPS, mensajes de texto, videos, tweets, y muchos otros más. Esta diversidad de tipos de datos generados por los sistemas de información ubicuos (están presentes en todo lugar y en todo momento) hace que su almacenamiento y posterior explotación por los “Científicos de Datos” sea complicada. Efectivamente, las bases de datos clásicas han sido concebidas originalmente para guardar información transaccional (filas y columnas), pese a las extensiones de estas para almacenar datos georreferenciados (spatial databases), datos multimedia (multimedia databases), etc. Para hacer frente a este problema, un nuevo término ha surgido en la comunidad de Científicos de Datos: los Data Lakes.
¿Cuál es la definición de los “Data Lakes”?
Existen muchas definiciones sobre ellos, sin embargo, todas ellas apuntan a definir un Data Lake como un repositorio de datos que permite almacenar una gran cantidad de datos brutos en el formato nativo y durante un período indefinido. James Dixon, CTO de la empresa Penthao y uno de los pioneros en este tema, nos ayuda a comprender qué es un Data Lake gracias a una comparación bastante interesante: los métodos de almacenamiento actuales presentan los datos como agua embotellada lista para el consumo, los Data Lakes son la fuente natural del agua, donde uno puede visitar, explorar, sumergirse o tomar muestras de ella.
Muchas empresas dedicadas al tratamiento de grandes volúmenes de datos (Big Data) están incluyendo los Data Lakes entre sus productos, por ejemplo, Microsoft, Teradata, Oracle, Cloudera, AWS o IBM. Es así como, en el 2019, se han invertido aproximadamente USD 7.9 mil millones en Data Lakes y se pronostica que esta inversión crecerá cerca de USD 20.1 mil millones para el 2024 (fuente: Markets And Markets).
Capacidades de los “Data Lakes”:
- Almacenar datos de todo tipo y estructuras en tiempo real.
- Los datos son almacenados en su forma y formato original. Esto permite reducir los costes asociados al preprocesamiento.
- Los datos son accesibles y pueden ser utilizados por una gran comunidad de usuarios.
- Los Data Lakes han sido concebidos para ser explotados por data scientists.
- Los datos almacenados en estas estructuras pueden ser fácilmente enriquecidos por fuentes de datos externas.
Desventajas:
Pese a que los Data Lakes están siendo bastante estudiados y utilizados por la comunidad científica y las organizaciones, muchos expertos han considerado que los Data Lakes aún tienen que revisarse y que están en proceso de maduración. Incluso, algunos de ellos las han llamado Data Swamps o pantanos de datos, esto debido a los múltiples defectos (por ejemplo, el almacenamiento de datos irrelevantes) que presenta esta nueva forma de almacenar los datos.
En estos tiempos, la información omnipresente ha cambiado nuestra forma de vida. Todas nuestras actividades y las de las organizaciones son almacenadas. Esta ingente cantidad de datos de diferentes formas debería -con un correcto tratamiento- ayudarnos a tomar decisiones basadas en evidencias (datos). Justamente, los Data Lakes permiten que los datos sean guardados en una forma que facilite su explotación. Definitivamente, detrás de los Data Lakes existen un conjunto de parámetros y estrategias que deben ser consideradas, sin embargo, se presenta como una herramienta que está empezando a ser utilizada por varias empresas en el mundo.
Comparte esta noticia