DeepSeek asegura que su generador de imágenes tiene el potencial de superar a modelos actuales como DALL-E 3 de OpenAI.
En medio del revuelo causado por DeepSeek, la startup china ha presentado Janus-Pro, un conjunto de modelos multimodales de inteligencia artificial de código abierto, especializados en la generación y comprensión de imágenes, que según la propia compañía, uno de estos tiene el potencial de superar a DALL-E 3, de OpenAI.
Los modelos de la familia Janus-Pro están disponibles en versiones que van desde los 1.000 hasta los 7.000 millones de parámetros. Estos parámetros representan la capacidad del modelo para resolver problemas: a mayor cantidad de parámetros, mayor suele ser su rendimiento y eficacia en comparación con los modelos más pequeños.
¿Cómo funciona?
La startup indica que Janus-Pro combina de manera eficiente la comprensión y creación de imágenes gracias a un enfoque que maneja tanto el análisis como la generación de datos de manera separada, pero dentro de un mismo sistema. Esto lo hace más flexible y rápido en comparación con otros modelos de creación y generación de imágenes.
Según la propia DeepSeek, Janus-Pro 7B (7.000 millones de parámetros) ha superado a modelos de IA tan conocidos como DALL-E 3 de OpenAI y Stable Diffusion de Stability AI. Esto lo ha logrado gracias a un método innovador y a la utilización de millones de imágenes sintéticas de alta calidad equilibradas con datos del mundo real.
"Janus-Pro supera el modelo unificado anterior e iguala o supera el rendimiento de los modelos específicos de tareas. La simplicidad, la alta flexibilidad y la eficacia de Janus-Pro lo convierten en un fuerte candidato para los modelos multimodales unificados de próxima generación", indica la startup en su perfil de Hugging Face.

Comparativa entre Janus (octubre 2024) y Janus-Pro-7B (enero 2025)Fuente: DeepSeek
Una gráfica presentada revela que, en las pruebas de rendimiento DPG-Bench y GenEval, Janus-Pro-7B supera en precisión a los modelos multimodales unificados de última generación, incluidos DALL-E 3, PixArt-alpha, Emu3-Gen y Stable Diffusion XL de Stability AI.

Pruebas en GenEval y DPG-Bench comparan la potencia de Janus-Pro-7B frente a otros modelos como DALL-E 3Fuente: DeepSeek
Actualmente, Janus-Pro está disponible como código abierto bajo la licencia MIT, lo que permite su uso, modificación y distribución sin restricciones, tanto para fines privados como comerciales. La única condición es mantener el aviso de copyright original, lo que facilita su uso comercial sin limitaciones.