OpenAI
Ejemplos de imágenes generadas a partir del mensaje de texto "Una vidriera con la imagen de una fresa azul", | Fuente: OpenAI

La Inteligencia Artificial está logrando grandes avances en el campo y OpenAI es prueba de ello. Ahora, en medio de sus investigaciones, ha presentado dos sistemas multimodales que permiten crear imágenes a partir de un texto con palabras e identificar imágenes de un grupo de ellas.

A través de su página web, la compañía fundada por Elon Musk y Sam Altman mostró las pruebas de DALL-E y Clip, sus dos tecnologías abanderadas.

DALL-E

Esta IA se basa en 12 mil millones de parámetros del GPT-3, un modelo de lenguaje basado en algoritmos entrenados para reconocer patrones de datos y aprender a través de ejemplos bajo la modalidad del aprendizaje profundo.

Esta tecnología puede generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares. La función es sencilla, aunque con una gran ciencia detrás: escribes una frase y DALL-E trata de presentarla gráficamente.

Además, busca darles sentido a las palabras, encuentra las relaciones, brinda atributos y trata hasta de darle perspectiva tridimensional. Sin embargo, también es capaz de crear imágenes que solo pueden existir en nuestra imaginación.

OpenAI
Los resultados de poner: Primer plano de un capibara sentado en un campo. | Fuente: OpenAI
OpenAI
Texto: una colección de lentes en una mesa. | Fuente: OpenAI

CLIP

Esta IA, por el contrario, lo que hace es identificar las imágenes poniendo a prueba su entrenamiento con más de 400 millones de imágenes de la red, para clasificarlas, identificarlas y describirlas.

OpenAI
Prueba de Clip. | Fuente: OpenAI

Los investigadores de OpenAI que trabajan en CLIP y DALL-E pidieron investigaciones adicionales sobre el posible impacto social de ambos sistemas. GPT-3 mostró un sesgo anti-musulmán significativo y puntuaciones de sentimiento negativo para las personas negras, por lo que las mismas deficiencias podrían incrustarse en DALL-E. Una prueba de sesgo incluida en el documento CLIP encontró que el modelo tenía más probabilidades de clasificar erróneamente a las personas menores de 20 años como delincuentes o no humanos. Las personas clasificadas como hombres tenían más probabilidades de ser etiquetadas como delincuentes que las personas clasificadas como mujeres, y algunos datos de las etiquetas contenidos en el conjunto de datos tienen un marcado carácter de género.

Te recomendamos METADATA, el podcast de tecnología de RPP. Noticias, análisis, reseñas, recomendaciones y todo lo que debes saber sobre el mundo tecnológico. Para escucharlo mejor, #QuedateEnCasa.