Anthropic descubre vulnerabilidad crítica en chatbots de IA: cambiar mayúsculas basta para burlar restricciones

Estudio demuestra cómo se puede "liberar" a la IA de sus salvaguardas. | Fuente: Pexels

20 de Diciembre del 2024 3:53 PM · Actualizado el 20 de Diciembre del 2024 3:53 PM

Investigadores demuestran que las barreras de seguridad en chatbots pueden ser evadidas con métodos simples y automatizados.

Todas las noticias en tu celular

¡Únete aquí a nuestro canal de WhatsApp!

Investigadores de Anthropic, en colaboración con las universidades de Oxford y Stanford, han revelado una preocupante vulnerabilidad en los sistemas de inteligencia artificial más avanzados del mundo: las protecciones diseñadas para prevenir contenido dañino pueden ser fácilmente burladas mediante simples modificaciones en el texto.

El estudio, que analiza los principales modelos de lenguaje como GPT-4, Claude y Gemini, demuestra que técnicas tan básicas como alterar aleatoriamente las mayúsculas y minúsculas en los mensajes ("IgNoRe YoUr TrAiNiNg") son suficientes para evadir las salvaguardas de seguridad.

Un algoritmo para saltarse las salvaguardas de la IA

Los investigadores desarrollaron un algoritmo llamado "Best-of-N (BoN) Jailbreaking" que automatiza este proceso de evasión. El sistema logró tasas de éxito superiores al 50% en todos los modelos probados, incluyendo las IAs más sofisticadas de gigantes como OpenAI, Google y Meta.

“Es preocupantemente simple burlar estos sistemas de seguridad”, señala el informe de Anthropic. La vulnerabilidad no se limita al texto: métodos similares funcionan con entradas de voz (modificando el tono o velocidad) e imágenes (alterando fuentes y colores).

Las implicaciones son significativas para la industria de la IA. Mientras empresas como Microsoft y ElevenLabs luchan por cerrar brechas de seguridad, surgen nuevas formas de evasión. El caso más notable fue la generación de imágenes falsas de Taylor Swift que se viralizaron en redes sociales, creadas mediante técnicas similares a las descritas en el estudio.

Anthropic enfatiza que la publicación de estos hallazgos busca mejorar los mecanismos de defensa. Sin embargo, el estudio plantea interrogantes sobre la efectividad real de las protecciones actuales en sistemas de IA, especialmente considerando la creciente disponibilidad de modelos sin restricciones en el mercado.

Metadata

METADATA E263 | ¿Qué buscamos los peruanos en Google? ¿Qué marcas de celulares, tablets, computadoras y televisores lideran en el Perú?

¡Bienvenidos a METADATA, el podcast de Tecnología de RPP! Google reveló las búsquedas más populares en el Perú durante este 2024. Y sí hay harto fútbol y retiro de la AFP. También comentamos con Dominio Consultores sobre el resultado del estudio de importaciones de diferentes productos, con bastante protagonismo de Samsung, pero el ascenso de competidores como Xiaomi y TCL.

METADATA E263 | ¿Qué buscamos los peruanos en Google? ¿Qué marcas de celulares, tablets, computadoras y televisores lideran en el Perú?

00:00 · 00:00

Elon Musk presenta Grok Imagine: la herramienta de IA que permite crear imágenes y videos con un controvertido modo "picante"

¡En plena audiencia! Acusado atacó a jueza que le negó la libertad condicional [VIDEO] — 1

Anthropic descubre vulnerabilidad crítica en chatbots de IA: cambiar mayúsculas basta para burlar restricciones

Investigadores demuestran que las barreras de seguridad en chatbots pueden ser evadidas con métodos simples y automatizados.

Un algoritmo para saltarse las salvaguardas de la IA

METADATA E263 | ¿Qué buscamos los peruanos en Google? ¿Qué marcas de celulares, tablets, computadoras y televisores lideran en el Perú?

Más sobre Más Tecnología

OpenAI lanza GPT-5, su modelo de inteligencia artificial más potente hasta la fecha

Hombre hace consulta a la inteligencia artificial para un experimento personal y termina hospitalizado

WhatsApp borra casi 7 millones de cuentas: ¿de quiénes son y por qué fueron eliminadas?

WhatsApp trabaja en una nueva función para permitir chats con personas que no tienen cuenta ni la app instalada

Elon Musk presenta Grok Imagine: la herramienta de IA que permite crear imágenes y videos con un controvertido modo "picante"

Lo más leído

Estados Unidos

¡En plena audiencia! Acusado atacó a jueza que le negó la libertad condicional [VIDEO]

La Libertad

La Libertad reportó dos muertos por la COVID-19 y ya suman tres a nivel nacional en 2024

Actualidad

¡Atención! Actualmente hay 89 playas no saludables y solo 42 saludables en el Perú, según Digesa

Estados Unidos

Reportan víctimas en tiroteo en una escuela secundaria de Iowa

Actualidad

Verano 2024: conoce cuáles son las playas saludables para visitar, según Digesa

Últimas noticias

Gobierno

Periodista colombiana sobre Gustavo Petro: "El gobierno ha sido manejado desde un Twitter"

Mascotas

Comas: ciudadana reportar que su perro Bobby se perdió en el parque de la Casa de la Mujer [VIDEO]

Congreso

Luis Aragón pide que el canciller explique en el Congreso acciones frente a las declaraciones de Petro sobre el distrito de Santa Rosa de Loreto

Selección Peruana

Perú vs Venezuela EN VIVO: ¿a qué hora juegan y dónde ver el partido por el quinto lugar de la Copa Panamericana 2025?

Contenido promocionado

Whatsapp

ChatGPT llega a WhatsApp como rival de Meta AI y Copilot: ¿cómo instalarlo en tu dispositivo?

Investigadores demuestran que las barreras de seguridad en chatbots pueden ser evadidas con métodos simples y automatizados.

Un algoritmo para saltarse las salvaguardas de la IA

Te recomendamos

METADATA E263 | ¿Qué buscamos los peruanos en Google? ¿Qué marcas de celulares, tablets, computadoras y televisores lideran en el Perú?

Video recomendado

Últimas noticias