Columnistas

De bases de datos a lagos de datos

29 de Enero del 2020 11:29 AM · Actualizado el 31 de Diciembre del 1970 7:00 PM

La increíble cantidad de datos que las empresas recogen ha exigido un cambio importante en el modo de almacenarlos. Conoce qué es un lago de datos y cómo construirlo.

Con mucha nostalgia, recordamos cómo hace aproximadamente 25 años podíamos guardar nuestros documentos, juegos y aplicaciones en disquetes (discos flexibles), que en el mejor de los casos almacenaba 1.44 Mb. Actualmente, un teléfono portátil de 16 Gb -el más modesto de los Smartphones- almacena más de 11 mil disquetes. Esta comparación resulta sorprendente, pero es irrelevante si queremos compararla con la enorme cantidad de información que actualmente circula en Internet. Muchas organizaciones coinciden en que, hoy en día, cada persona en el mundo genera -en promedio- 1.7 Mb de información por segundo, es decir, un poco más de la información de la que guardábamos en un disquete. Esta enorme cantidad de información generada es heterogénea, es decir, de múltiples formatos, por ejemplo, fotografías, posiciones GPS, mensajes de texto, videos, tweets, y muchos otros más. Esta diversidad de tipos de datos generados por los sistemas de información ubicuos (están presentes en todo lugar y en todo momento) hace que su almacenamiento y posterior explotación por los “Científicos de Datos” sea complicada. Efectivamente, las bases de datos clásicas han sido concebidas originalmente para guardar información transaccional (filas y columnas), pese a las extensiones de estas para almacenar datos georreferenciados (spatial databases), datos multimedia (multimedia databases), etc. Para hacer frente a este problema, un nuevo término ha surgido en la comunidad de Científicos de Datos: los Data Lakes.

De bases de datos a lagos de datos — | Fuente: Freeimags

¿Cuál es la definición de los “Data Lakes”?

Existen muchas definiciones sobre ellos, sin embargo, todas ellas apuntan a definir un Data Lake como un repositorio de datos que permite almacenar una gran cantidad de datos brutos en el formato nativo y durante un período indefinido. James Dixon, CTO de la empresa Penthao y uno de los pioneros en este tema, nos ayuda a comprender qué es un Data Lake gracias a una comparación bastante interesante: los métodos de almacenamiento actuales presentan los datos como agua embotellada lista para el consumo, los Data Lakes son la fuente natural del agua, donde uno puede visitar, explorar, sumergirse o tomar muestras de ella.

Muchas empresas dedicadas al tratamiento de grandes volúmenes de datos (Big Data) están incluyendo los Data Lakes entre sus productos, por ejemplo, Microsoft, Teradata, Oracle, Cloudera, AWS o IBM. Es así como, en el 2019, se han invertido aproximadamente USD 7.9 mil millones en Data Lakes y se pronostica que esta inversión crecerá cerca de USD 20.1 mil millones para el 2024 (fuente: Markets And Markets).

Capacidades de los “Data Lakes”:

Almacenar datos de todo tipo y estructuras en tiempo real.
Los datos son almacenados en su forma y formato original. Esto permite reducir los costes asociados al preprocesamiento.
Los datos son accesibles y pueden ser utilizados por una gran comunidad de usuarios.
Los Data Lakes han sido concebidos para ser explotados por data scientists.
Los datos almacenados en estas estructuras pueden ser fácilmente enriquecidos por fuentes de datos externas.

Desventajas:

Pese a que los Data Lakes están siendo bastante estudiados y utilizados por la comunidad científica y las organizaciones, muchos expertos han considerado que los Data Lakes aún tienen que revisarse y que están en proceso de maduración. Incluso, algunos de ellos las han llamado Data Swamps o pantanos de datos, esto debido a los múltiples defectos (por ejemplo, el almacenamiento de datos irrelevantes) que presenta esta nueva forma de almacenar los datos.

En estos tiempos, la información omnipresente ha cambiado nuestra forma de vida. Todas nuestras actividades y las de las organizaciones son almacenadas. Esta ingente cantidad de datos de diferentes formas debería -con un correcto tratamiento- ayudarnos a tomar decisiones basadas en evidencias (datos). Justamente, los Data Lakes permiten que los datos sean guardados en una forma que facilite su explotación. Definitivamente, detrás de los Data Lakes existen un conjunto de parámetros y estrategias que deben ser consideradas, sin embargo, se presenta como una herramienta que está empezando a ser utilizada por varias empresas en el mundo.

NOTA: “Ni el Grupo RPP, ni sus directores, accionistas, representantes legales, gerentes y/o empleados serán responsables bajo ninguna circunstancia por las declaraciones, comentarios u opiniones vertidas en la presente columna, siendo el único responsable el autor de la misma.

Hugo Alatrista Ingeniero

Vicedecano de la Carrera de Ingeniería de la Información de la Universidad del Pacífico. Es doctor en Informática por la Universidad de Montpellier (Francia), en cooperación con la Universidad de Nueva Caledonia. Máster en Ciencias, Tecnología y Salud con mención en Informática, especialidad en Informática con Finalidades Profesional e Investigación Unificadas por la Universidad de Montpellier. Ingeniero de sistemas y bachiller en Ingeniería de Sistemas por la Universidad Andina del Cusco.

Otros columnistas

De bases de datos a lagos de datos

La increíble cantidad de datos que las empresas recogen ha exigido un cambio importante en el modo de almacenarlos. Conoce qué es un lago de datos y cómo construirlo.

Tags

Otros columnistas

Rolando Arellano Cueva

Mucho abrazo, poca confianza

Ricardo L. Falla Carrillo

Trump y el tablero del caos

Rolando Arellano Cueva

Ahorrar: guardar para crecer mañana

Ricardo L. Falla Carrillo

Michel Foucault: el cartógrafo del poder y el saber

Ricardo L. Falla Carrillo

Crónicas sobre el futuro humano en Davos 2026

Últimas noticias

Congreso

Congresistas del Bloque Democrático se retiran y no votarán en la segunda vuelta para elegir al nuevo presidente

Más Voley

Regatas Lima vs UVIV EN VIVO: se enfrentan en Villa El Salvador por el Sudamericano de Clubes de Vóley 2026

Más Voley

Meegan Hart tras triunfo en el Sudamericano de Vóley Femenino: "Estoy muy feliz de representar a Alianza Lima"

Más Voley

SESI vs UVIV EN VIVO: ¿a qué hora juegan y dónde ver el partido por la fecha 2 del Sudamericano de Clubes de Vóley?

Más Voley

Alianza Lima vs San Martín EN VIVO: ¿a qué hora empieza y por dónde ver la fecha 2 del Sudamericano de Clubes de Vóley?

Más Voley

Osasco vs Boston College EN VIVO: ¿a qué hora juegan y dónde ver la fecha 2 del Sudamericano de Clubes de Vóley 2026?

Actualidad

El mono ‘Punch’ se hace viral al adoptar un peluche como madre sustituta [VIDEO]

Farándula

"Siempre habrá amor entre nosotros": Maju Mantilla no descarta reconciliación con Gustavo Salcedo

¿Qué es lo más relevante de una empresa para ser altamente competitiva?