Buscar
RPP Noticias
Estás escuchando En vivo
 
00:00 / 00:00
Lima
89.7 FM /730 AM
Arequipa
102.3 FM / 1170 AM
Chiclayo
96.7 FM / 870 AM
Huancayo
97.3 FM / 1140 AM
Trujillo
90.9 FM / 790 AM
Piura
103.3 FM / 920 AM
Cusco
93.3 FM
Cajamarca
100.7 FM / 1130 AM
La informacion mas relevante de la actuaidad al momento
Actualizado hace 0 minutos
Informes RPP
Las denuncias constitucionales que rodean a Martín Vizcarra
EP 1093 • 05:34
Detector de Mentiras
Detector de Mentiras: Difunden imágenes falsas de Donald Trump generadas con Inteligencia Artificial
EP 47 • 01:32
Mamá Limonada
EP02 | T2 | Lonchera contra la anemia
EP 2 • 08:45

De bases de datos a lagos de datos

La increíble cantidad de datos que las empresas recogen ha exigido un cambio importante en el modo de almacenarlos. Conoce qué es un lago de datos y cómo construirlo.

Con mucha nostalgia, recordamos cómo hace aproximadamente 25 años podíamos guardar nuestros documentos, juegos y aplicaciones en disquetes (discos flexibles), que en el mejor de los casos almacenaba 1.44 Mb. Actualmente, un teléfono portátil de 16 Gb -el más modesto de los Smartphones- almacena más de 11 mil disquetes. Esta comparación resulta sorprendente, pero es irrelevante si queremos compararla con la enorme cantidad de información que actualmente circula en Internet. Muchas organizaciones coinciden en que, hoy en día, cada persona en el mundo genera -en promedio- 1.7 Mb de información por segundo, es decir, un poco más de la información de la que guardábamos en un disquete. Esta enorme cantidad de información generada es heterogénea, es decir, de múltiples formatos, por ejemplo, fotografías, posiciones GPS, mensajes de texto, videos, tweets, y muchos otros más. Esta diversidad de tipos de datos generados por los sistemas de información ubicuos (están presentes en todo lugar y en todo momento) hace que su almacenamiento y posterior explotación por los “Científicos de Datos” sea complicada. Efectivamente, las bases de datos clásicas han sido concebidas originalmente para guardar información transaccional (filas y columnas), pese a las extensiones de estas para almacenar datos georreferenciados (spatial databases), datos multimedia (multimedia databases), etc. Para hacer frente a este problema, un nuevo término ha surgido en la comunidad de Científicos de Datos: los Data Lakes.

| Fuente: Freeimags

¿Cuál es la definición de los “Data Lakes”?

Existen muchas definiciones sobre ellos, sin embargo, todas ellas apuntan a definir un Data Lake como un repositorio de datos que permite almacenar una gran cantidad de datos brutos en el formato nativo y durante un período indefinido. James Dixon, CTO de la empresa Penthao y uno de los pioneros en este tema, nos ayuda a comprender qué es un Data Lake gracias a una comparación bastante interesante: los métodos de almacenamiento actuales presentan los datos como agua embotellada lista para el consumo, los Data Lakes son la fuente natural del agua, donde uno puede visitar, explorar, sumergirse o tomar muestras de ella.

Muchas empresas dedicadas al tratamiento de grandes volúmenes de datos (Big Data) están incluyendo los Data Lakes entre sus productos, por ejemplo, Microsoft, Teradata, Oracle, Cloudera, AWS o IBM. Es así como, en el 2019, se han invertido aproximadamente USD 7.9 mil millones en Data Lakes y se pronostica que esta inversión crecerá cerca de USD 20.1 mil millones para el 2024 (fuente: Markets And Markets).

Capacidades de los “Data Lakes”:

  • Almacenar datos de todo tipo y estructuras en tiempo real.
  • Los datos son almacenados en su forma y formato original. Esto permite reducir los costes asociados al preprocesamiento.
  • Los datos son accesibles y pueden ser utilizados por una gran comunidad de usuarios.
  • Los Data Lakes han sido concebidos para ser explotados por data scientists.
  • Los datos almacenados en estas estructuras pueden ser fácilmente enriquecidos por fuentes de datos externas.

Desventajas:

Pese a que los Data Lakes están siendo bastante estudiados y utilizados por la comunidad científica y las organizaciones, muchos expertos han considerado que los Data Lakes aún tienen que revisarse y que están en proceso de maduración. Incluso, algunos de ellos las han llamado Data Swamps o pantanos de datos, esto debido a los múltiples defectos (por ejemplo, el almacenamiento de datos irrelevantes) que presenta esta nueva forma de almacenar los datos.

En estos tiempos, la información omnipresente ha cambiado nuestra forma de vida. Todas nuestras actividades y las de las organizaciones son almacenadas. Esta ingente cantidad de datos de diferentes formas debería -con un correcto tratamiento- ayudarnos a tomar decisiones basadas en evidencias (datos). Justamente, los Data Lakes permiten que los datos sean guardados en una forma que facilite su explotación. Definitivamente, detrás de los Data Lakes existen un conjunto de parámetros y estrategias que deben ser consideradas, sin embargo, se presenta como una herramienta que está empezando a ser utilizada por varias empresas en el mundo.

NOTA: “Ni el Grupo RPP, ni sus directores, accionistas, representantes legales, gerentes y/o empleados serán responsables bajo ninguna circunstancia por las declaraciones, comentarios u opiniones vertidas en la presente columna, siendo el único responsable el autor de la misma.
Hugo Alatrista

Hugo Alatrista Ingeniero

Vicedecano de la Carrera de Ingeniería de la Información de la Universidad del Pacífico. Es doctor en Informática por la Universidad de Montpellier (Francia), en cooperación con la Universidad de Nueva Caledonia. Máster en Ciencias, Tecnología y Salud con mención en Informática, especialidad en Informática con Finalidades Profesional e Investigación Unificadas por la Universidad de Montpellier. Ingeniero de sistemas y bachiller en Ingeniería de Sistemas por la Universidad Andina del Cusco.

Tags

Otros columnistas

Ver más

Suscribirte al boletín de tus noticias preferidas

Suscríbete a nuestros boletines y actualiza tus preferencias

Buzon
Al suscribirte, aceptas nuestras políticas de privacidad

Últimas noticias

Contenido promocionado

Taboola
SIGUIENTE NOTA