DeepSeek asegura que su generador de imágenes tiene el potencial de superar a modelos actuales como DALL-E 3 de OpenAI.
En medio del revuelo causado por DeepSeek, la startup china ha presentado Janus-Pro, un conjunto de modelos multimodales de inteligencia artificial de código abierto, especializados en la generación y comprensión de imágenes, que según la propia compañía, uno de estos tiene el potencial de superar a DALL-E 3, de OpenAI.
Los modelos de la familia Janus-Pro están disponibles en versiones que van desde los 1.000 hasta los 7.000 millones de parámetros. Estos parámetros representan la capacidad del modelo para resolver problemas: a mayor cantidad de parámetros, mayor suele ser su rendimiento y eficacia en comparación con los modelos más pequeños.
¿Cómo funciona?
La startup indica que Janus-Pro combina de manera eficiente la comprensión y creación de imágenes gracias a un enfoque que maneja tanto el análisis como la generación de datos de manera separada, pero dentro de un mismo sistema. Esto lo hace más flexible y rápido en comparación con otros modelos de creación y generación de imágenes.
Según la propia DeepSeek, Janus-Pro 7B (7.000 millones de parámetros) ha superado a modelos de IA tan conocidos como DALL-E 3 de OpenAI y Stable Diffusion de Stability AI. Esto lo ha logrado gracias a un método innovador y a la utilización de millones de imágenes sintéticas de alta calidad equilibradas con datos del mundo real.
"Janus-Pro supera el modelo unificado anterior e iguala o supera el rendimiento de los modelos específicos de tareas. La simplicidad, la alta flexibilidad y la eficacia de Janus-Pro lo convierten en un fuerte candidato para los modelos multimodales unificados de próxima generación", indica la startup en su perfil de Hugging Face.
Una gráfica presentada revela que, en las pruebas de rendimiento DPG-Bench y GenEval, Janus-Pro-7B supera en precisión a los modelos multimodales unificados de última generación, incluidos DALL-E 3, PixArt-alpha, Emu3-Gen y Stable Diffusion XL de Stability AI.
Actualmente, Janus-Pro está disponible como código abierto bajo la licencia MIT, lo que permite su uso, modificación y distribución sin restricciones, tanto para fines privados como comerciales. La única condición es mantener el aviso de copyright original, lo que facilita su uso comercial sin limitaciones.
Te recomendamos
Comparte esta noticia