Buscar
RPP Noticias
Estás escuchando En vivo
 
00:00 / 00:00
Lima
89.7 FM /730 AM
Arequipa
102.3 FM / 1170 AM
Chiclayo
96.7 FM / 870 AM
Huancayo
97.3 FM / 1140 AM
Trujillo
90.9 FM / 790 AM
Piura
103.3 FM / 920 AM
Cusco
93.3 FM
Cajamarca
100.7 FM / 1130 AM
La información más relevante de la actualidad al momento
Actualizado hace 0 minutos
Entrevistas ADN
Fiscal de la Nación condena atentado en Trujillo y cuestiona falta de prevención ante criminalidad
EP 1778 • 17:26
Metadata
METADATA E264: CES 2025... ¿Es el año de Windows 11? Los lanzamientos de celulares que llegan este enero
EP 264 • 18:08
Letras en el tiempo
Historias con suerte
EP 1 • 41:11

Anthropic descubre vulnerabilidad crítica en chatbots de IA: cambiar mayúsculas basta para burlar restricciones

Estudio demuestra cómo se puede
Estudio demuestra cómo se puede "liberar" a la IA de sus salvaguardas. | Fuente: Pexels

Investigadores demuestran que las barreras de seguridad en chatbots pueden ser evadidas con métodos simples y automatizados.

Todas las noticias en tu celular
¡Únete aquí a nuestro canal de WhatsApp!

Investigadores de Anthropic, en colaboración con las universidades de Oxford y Stanford, han revelado una preocupante vulnerabilidad en los sistemas de inteligencia artificial más avanzados del mundo: las protecciones diseñadas para prevenir contenido dañino pueden ser fácilmente burladas mediante simples modificaciones en el texto.

El estudio, que analiza los principales modelos de lenguaje como GPT-4, Claude y Gemini, demuestra que técnicas tan básicas como alterar aleatoriamente las mayúsculas y minúsculas en los mensajes ("IgNoRe YoUr TrAiNiNg") son suficientes para evadir las salvaguardas de seguridad.

Un algoritmo para saltarse las salvaguardas de la IA

Los investigadores desarrollaron un algoritmo llamado "Best-of-N (BoN) Jailbreaking" que automatiza este proceso de evasión. El sistema logró tasas de éxito superiores al 50% en todos los modelos probados, incluyendo las IAs más sofisticadas de gigantes como OpenAI, Google y Meta.

“Es preocupantemente simple burlar estos sistemas de seguridad”, señala el informe de Anthropic. La vulnerabilidad no se limita al texto: métodos similares funcionan con entradas de voz (modificando el tono o velocidad) e imágenes (alterando fuentes y colores).

Las implicaciones son significativas para la industria de la IA. Mientras empresas como Microsoft y ElevenLabs luchan por cerrar brechas de seguridad, surgen nuevas formas de evasión. El caso más notable fue la generación de imágenes falsas de Taylor Swift que se viralizaron en redes sociales, creadas mediante técnicas similares a las descritas en el estudio.

Anthropic enfatiza que la publicación de estos hallazgos busca mejorar los mecanismos de defensa. Sin embargo, el estudio plantea interrogantes sobre la efectividad real de las protecciones actuales en sistemas de IA, especialmente considerando la creciente disponibilidad de modelos sin restricciones en el mercado.

Te recomendamos

Metadata

METADATA E263 | ¿Qué buscamos los peruanos en Google? ¿Qué marcas de celulares, tablets, computadoras y televisores lideran en el Perú?

¡Bienvenidos a METADATA, el podcast de Tecnología de RPP! Google reveló las búsquedas más populares en el Perú durante este 2024. Y sí hay harto fútbol y retiro de la AFP. También comentamos con Dominio Consultores sobre el resultado del estudio de importaciones de diferentes productos, con bastante protagonismo de Samsung, pero el ascenso de competidores como Xiaomi y TCL.

Metadata
00:00 · 00:00
Alberto Nishiyama

Alberto Nishiyama Periodista de tecnología

Maestro en Marketing y Comunicación Digital en la UPC y Bachiller en Ciencias de la Comunicación en la USMP. Especialista en temas de tecnología, innovación y videojuegos. Más de 10 años de experiencia profesional.

Tags

Lo último en Más Tecnología

Lo más leído

Suscribirte al boletín de tus noticias preferidas

Suscríbete a nuestros boletines y actualiza tus preferencias

Buzon
Al suscribirte, aceptas nuestras políticas de privacidad

Contenido promocionado

Taboola
SIGUIENTE NOTA