Qué es el raspado de datos, la técnica para entrenar a las IA, y por qué genera preocupación

Esta técnica está siendo debatida ya por múltiples legislaciones. | Fuente: Foto de Sergey Zolkin en Unsplash

5 de Julio del 2023 3:35 PM · Actualizado el 5 de Julio del 2023 3:35 PM

El raspado de datos ha vuelto a ser noticia luego de ser usado como argumento para Twitter limitara la visualización de publicación al día a sus usuarios. Google también reconoce usarlo para entrenar a Bard.

Todas las noticias en tu celular

¡Únete aquí a nuestro canal de WhatsApp!

Cada vez más empresas están aceptando realizar el ‘raspado de datos’ para entrenar a sus inteligencias artificiales, provocando una enorme preocupación por parte de reguladores y las autoridades correspondientes en el mundo de internet.

El último caso estuvo envuelto en polémica, con Elon Musk poniéndolo como argumento para limitar la visualización de publicaciones al día para los usuarios de Twitter. Google también ha confirmado que realiza esta actividad para Bard, pero ¿a qué nos referimos al hablar de ella?

Raspado de información

El raspado de datos (data scraping o web scraping) es un proceso automático con el que se recopila datos de sitios webs, recolectando y extrayendo toda la información presente en ellos con múltiples objetivos.

Esta actividad funciona principalmente en fuentes de datos no estructurados como las redes sociales, base de datos, apps y más, para luego estructurarlos y hacerlos comprensibles para los sistemas de aprendizaje automático, los cuales son la base para el entrenamiento de las inteligencias artificiales.

Debido a la gran información que hay internet, este proceso mejora y agiliza procesos, pero también múltiples aspectos negativos.

Por ejemplo, un reporte señala que el 47.4 % de todo el tráfico de internet en el 2022 provino de bots, un 5.1 % más que en el 2021. Gran parte de ellos también sirvió en este proceso de entrenamiento.

Y claro, el principal problema es acumular información privada, incluida información de identificación personal, de cientos de millones de usuarios de Internet, incluidos niños de todas las edades, sin su conocimiento o consentimiento informado.

Un proceso que continuará

Con la inteligencia artificial en auge, parece ser un proceso que no cambiará prontamente.

La carrera entre todas las principales empresas de tecnología y un grupo creciente de nuevas empresas para desarrollar nuevas tecnologías de inteligencia artificial, dicen los expertos, también ha acelerado no solo la escala del web scraping, sino también los daños potenciales que conlleva. Los expertos señalan que, si bien el web scraping puede tener beneficios para la sociedad, como la transparencia comercial y la investigación académica, también puede generar daños, como riesgos de seguridad cibernética y estafadores que recopilan información confidencial para cometer fraude.

Solo hace pocos días, OpenAI, la dueña de ChatGPT, fue demandada en California por 16 personas, la cuales alegan una variedad de daños, desde violaciones de derechos de autor hasta escuchas telefónicas debido a las prácticas de recopilación de datos, lo que se suma a una lista creciente de desafíos legales contra las empresas que reutilizan imágenes, información personal, código y otros datos para sus propósitos propios.

Google confirmó hace poco que Bard está siendo entrenado con datos públicos que la empresa recopila bajo este mecanismo.

En una actualización de la política de privacidad se lee que la compañía “usa información para mejorar nuestros servicios y desarrollar nuevos productos, funciones y tecnologías que benefician a nuestros usuarios y al público" y que la compañía puede "usar información disponible públicamente para ayudar a entrenar los modelos de IA de Google y crear productos y funciones como Google Translate, Bard y capacidades de IA en la nube”.

En noviembre pasado, los codificadores demandaron a GitHub junto con su empresa matriz Microsoft y su socio OpenAI por una herramienta conocida como CoPilot que usa IA para generar código. Los codificadores argumentaron que las empresas violaron los acuerdos de licencia del código. En febrero, Getty Images demandó a Stability AI por presuntamente infringir los derechos de autor de más de 12 millones de imágenes.

Anteriormente, Meta también pagaba a la empresa Bright Data para recolectar información de los usuarios de comercio electrónico, pero “no aceptaba que esa información se venda a terceros”.

Muchos sitios web de acceso público tienen políticas vigentes que prohíben la recopilación de datos con el fin de entrenar modelos de lenguaje grandes (LLM) y otros conjuntos de herramientas de inteligencia artificial.

La incertidumbre ha provocado varias demandas y ha empujado a los legisladores de algunas naciones a introducir leyes más estrictas que estén mejor equipadas para regular cómo las empresas de inteligencia artificial recopilan y utilizan sus datos de formación.

También plantea preguntas sobre cómo se procesan estos datos para garantizar que no contribuyan a fallas peligrosas dentro de los sistemas de inteligencia artificial, con las personas encargadas de clasificar estos vastos grupos de datos de capacitación a menudo sujetos a largas horas y condiciones de trabajo extremas.

Qué es el raspado de datos, la técnica para entrenar a las IA, y por qué genera preocupación

El raspado de datos ha vuelto a ser noticia luego de ser usado como argumento para Twitter limitara la visualización de publicación al día a sus usuarios. Google también reconoce usarlo para entrenar a Bard.

Raspado de información

Un proceso que continuará

RPP TV

En Vivo

Más sobre Más Tecnología

Caída en la nube de Amazon causa fallos en sitios web y aplicaciones de todo el mundo

Un ciberataque provoca retrasos y cancelaciones en algunos aeropuertos europeos

Así es el nuevo iPhone 17 de Apple: versiones, precios, novedades y todas sus características [Fotos y video]

Apple presenta los iPhone 17 y mantiene los precios de sus modelos pese a aranceles

Japón: crean un espectacular vídeo con IA para simular una erupción a gran escala del monte Fuji

Lo más leído

Estados Unidos

¡En plena audiencia! Acusado atacó a jueza que le negó la libertad condicional [VIDEO]

La Libertad

La Libertad reportó dos muertos por la COVID-19 y ya suman tres a nivel nacional en 2024

Actualidad

¡Atención! Actualmente hay 89 playas no saludables y solo 42 saludables en el Perú, según Digesa

Estados Unidos

Reportan víctimas en tiroteo en una escuela secundaria de Iowa

Actualidad

Verano 2024: conoce cuáles son las playas saludables para visitar, según Digesa

Últimas noticias

Copa Libertadores

EN VIVO | Flamengo vs. Racing Club: partidazo por la semifinal de Copa Libertadores en el Maracaná

Estados Unidos

Donald Trump dice que Petro es un "matón" y un "mal tipo" que fabrica "muchas drogas"

Economía

Tradición que mueve la economía: venta de turrones, picarones y anticuchos se elevan en el Mes Morado

Estados Unidos

Ala Este de la Casa Blanca será demolida totalmente para construir salón de baile de Trump

Contenido promocionado

Más Ciencia

El primer fármaco para regenerar dientes recibe la aprobación para sus ensayos clínicos en Japón

El raspado de datos ha vuelto a ser noticia luego de ser usado como argumento para Twitter limitara la visualización de publicación al día a sus usuarios. Google también reconoce usarlo para entrenar a Bard.

Te recomendamos

Raspado de información

Te recomendamos

Un proceso que continuará

Te recomendamos

Video recomendado

Últimas noticias