Documentos judiciales indican que el CEO de Meta autorizó el uso de libros pirateados para entrenar sus modelos de IA, pese a advertencias internas sobre riesgos legales.
Mark Zuckerberg autorizó expresamente que el equipo de Meta encargado de desarrollar Llama, su modelo de inteligencia artificial, utilizara una base de datos de libros y artículos pirateados para el entrenamiento, según revelan nuevos documentos judiciales presentados ante una corte federal de California, reportó TechCrunch.
Los documentos, recientemente desclasificados en el marco de la demanda Kadrey v. Meta, muestran que el CEO de Meta aprobó el uso de LibGen, un conocido repositorio de contenido pirateado, a pesar de las preocupaciones expresadas por ejecutivos y miembros del equipo de IA de la compañía.
Meta, IA y torrents
LibGen, que se describe a sí mismo como un "agregador de enlaces", proporciona acceso no autorizado a obras protegidas por derechos de autor de importantes editoriales como Cengage Learning, Macmillan Learning, McGraw Hill y Pearson Education. El sitio ha enfrentado múltiples demandas, órdenes de cierre y multas millonarias por violación de derechos de autor.
Según el testimonio de Meta, citado por los abogados de los demandantes, Zuckerberg autorizó el uso de LibGen para entrenar al menos uno de los modelos Llama, ignorando las advertencias internas. Los documentos citan a empleados de Meta refiriéndose a LibGen como un "conjunto de datos que sabemos que está pirateado" y señalando que su uso "podría socavar la posición negociadora (de Meta) con los reguladores".
La revelación más preocupante es que Meta aparentemente intentó ocultar su infracción eliminando sistemáticamente la información de derechos de autor. Nikolay Bashlykov, ingeniero del equipo de investigación de Llama, escribió un script para eliminar información de derechos de autor, incluyendo las palabras "copyright" y "acknowledgments" de los libros electrónicos en LibGen.
Los documentos también revelan que Meta utilizó la torrents para descargar desde LibGen, una práctica que generó inquietud entre algunos ingenieros de investigación. El torrenting requiere que los usuarios simultáneamente "siembren" o suban los archivos que están intentando obtener, lo que efectivamente convirtió a Meta en participante activo en la distribución de contenido pirateado.
Ahmad Ah-Dahle, jefe de IA generativa de Meta, desestimó las preocupaciones de Bashlykov sobre la legalidad del uso de torrents. Los abogados de los demandantes argumentan que esta decisión de Meta de eludir los métodos legales de adquisición de libros y participar en una red de torrents ilegal constituye una prueba adicional de violación de derechos de autor.
Aunque el caso contra Meta está lejos de resolverse y solo se refiere a los primeros modelos Llama, las alegaciones han generado serias dudas sobre las prácticas éticas de la empresa. El juez Vince Chhabria, quien preside el caso, rechazó la solicitud de Meta de mantener en secreto grandes partes de la presentación, señalando que el intento de la empresa parecía diseñado para evitar publicidad negativa más que para proteger información comercial sensible.
Comparte esta noticia