Investigadores demuestran que las barreras de seguridad en chatbots pueden ser evadidas con métodos simples y automatizados.
Investigadores de Anthropic, en colaboración con las universidades de Oxford y Stanford, han revelado una preocupante vulnerabilidad en los sistemas de inteligencia artificial más avanzados del mundo: las protecciones diseñadas para prevenir contenido dañino pueden ser fácilmente burladas mediante simples modificaciones en el texto.
El estudio, que analiza los principales modelos de lenguaje como GPT-4, Claude y Gemini, demuestra que técnicas tan básicas como alterar aleatoriamente las mayúsculas y minúsculas en los mensajes ("IgNoRe YoUr TrAiNiNg") son suficientes para evadir las salvaguardas de seguridad.
Un algoritmo para saltarse las salvaguardas de la IA
Los investigadores desarrollaron un algoritmo llamado "Best-of-N (BoN) Jailbreaking" que automatiza este proceso de evasión. El sistema logró tasas de éxito superiores al 50% en todos los modelos probados, incluyendo las IAs más sofisticadas de gigantes como OpenAI, Google y Meta.
“Es preocupantemente simple burlar estos sistemas de seguridad”, señala el informe de Anthropic. La vulnerabilidad no se limita al texto: métodos similares funcionan con entradas de voz (modificando el tono o velocidad) e imágenes (alterando fuentes y colores).
Las implicaciones son significativas para la industria de la IA. Mientras empresas como Microsoft y ElevenLabs luchan por cerrar brechas de seguridad, surgen nuevas formas de evasión. El caso más notable fue la generación de imágenes falsas de Taylor Swift que se viralizaron en redes sociales, creadas mediante técnicas similares a las descritas en el estudio.
Anthropic enfatiza que la publicación de estos hallazgos busca mejorar los mecanismos de defensa. Sin embargo, el estudio plantea interrogantes sobre la efectividad real de las protecciones actuales en sistemas de IA, especialmente considerando la creciente disponibilidad de modelos sin restricciones en el mercado.
Comparte esta noticia