El proyecto de inteligencia artificial del Gobierno español enfrenta críticas por su alto costo y bajo rendimiento en comparación con modelos anteriores.
La presentación de Alia, el ambicioso proyecto de inteligencia artificial del Gobierno español, ha desencadenado una ola de críticas en la comunidad tecnológica por sus pobres resultados y elevados costos. Con una inversión estimada superior a los 10 millones de euros, el modelo no logra superar los benchmarks o pruebas sintéticas de Llama 2, el modelo de IA lanzado por Meta en julio de 2023.
Alia se queda atrás
Los datos técnicos revelados muestran deficiencias significativas en áreas cruciales. Según análisis compartidos por Javier López, fundador de Magnific AI, Alia presenta resultados inferiores en pruebas de comprensión del lenguaje natural (NLI) y respuesta a preguntas (QA). Por ejemplo, en la prueba XNLI_en, Alia alcanzó una precisión de 51.77%, mientras que Llama 2 logró aproximadamente 66%. En SQuAD_en, la diferencia es aún más notable: 81.53% frente al 93-94% de Llama 2.
La controversia se intensificó cuando inicialmente se especuló que Alia podría ser una simple adaptación (fine tuning) de Llama. Aunque la documentación oficial en Hugging Face indica que fue entrenada desde cero con datos curados manualmente, sí se confirmó el uso del tokenizador de los modelos de Meta.
Ramón Medrano Llamas, ingeniero de Google, señaló a través de su cuenta de X que si Alia fuera un fine tune con 17B tokens, "los resultados serían mucho mejores y a 1/100 del coste", mencionando que esta fue la estrategia adoptada por Francia en su proyecto nacional de IA.
La polémica ha llevado a cambios en la transparencia del proyecto: las tablas comparativas con Llama 2 han sido removidas de la documentación oficial en Hugging Face. Este desarrollo ha generado preocupación sobre la eficiencia en el uso de recursos públicos y la competitividad de la IA española en el escenario internacional.
Comparte esta noticia