Investigadores combinaron elementos de modelos de Google y Alibaba para lograr un competidor formidable de bajo costo.
Un equipo de investigadores de las universidades de Stanford y Washington ha logrado lo que muchos consideraban imposible: desarrollar un modelo de inteligencia artficial (IA) con capacidades de razonamiento comparables a las de gigantes como OpenAI y DeepSeek por apenas 50 dólares, una fracción minúscula de los millones que invierten las grandes tecnológicas.
El modelo, bautizado como s1, ha demostrado un rendimiento similar a sus contrapartes comerciales o1 de OpenAI y R1 de DeepSeek en pruebas de habilidades matemáticas y programación. Este logro, documentado en un artículo publicado en arXiv la semana pasada, podría revolucionar la economía de la IA y cuestionar los modelos de negocio actuales.
No es un modelo totalmente nuevo
La clave del éxito radica en una combinación ingeniosa de técnicas existentes. Los investigadores utilizaron como base el modelo gratuito Qwen2.5-32B, desarrollado por el laboratorio chino Qwen de Alibaba, y aplicaron un proceso de "destilación" del conocimiento a partir del modelo Gemini 2.0 Flash Thinking Experimental de Google. Esta técnica permite transferir las capacidades de razonamiento de un modelo más grande a uno más pequeño y eficiente.
El proceso de entrenamiento fue sorprendentemente breve: menos de 30 minutos utilizando 16 chips NVIDIA H100 en la nube. Los investigadores crearon un conjunto de datos de solo 1,000 preguntas cuidadosamente seleccionadas, junto con sus respectivas respuestas y procesos de razonamiento. Un aspecto innovador fue la implementación de una técnica que hace que el modelo "espere" y continúe razonando antes de proporcionar una respuesta definitiva, mejorando significativamente su precisión.
Aunque el bajo costo de entrenamiento es impresionante, es importante señalar que s1 no crea nuevas capacidades, sino que replica las existentes de manera más eficiente.
El equipo ha hecho público el modelo s1 en GitHub, junto con los datos y el código utilizados para su entrenamiento. Esta decisión permite que otros investigadores y desarrolladores puedan replicar y construir sobre sus hallazgos.
El desarrollo de s1 representa un hito importante en la democratización de la IA avanzada. Demuestra que, con las técnicas adecuadas y un enfoque innovador, es posible crear modelos de IA competitivos sin necesidad de inversiones multimillonarias. Sin embargo, también plantea interrogantes sobre la sostenibilidad de los modelos de negocio actuales en la industria de la IA y el futuro de la innovación en este campo, dudas que ya surgieron con la llegada de DeepSeek, que destaca por sus costos asequibles y eficiencia.
Comparte esta noticia