Apagado global de Claude Fable 5 y Mythos 5: un jailbreak que activó un control de exportación

El 12 de junio de 2026, Anthropic deshabilitó por completo sus modelos Mythos-class —Fable 5 y Mythos 5— para todos sus clientes a nivel mundial, apenas tres días después de su lanzamiento. El detonante: una directiva de control de exportaciones del gobierno de EE. UU. que prohíbe el acceso de cualquier ciudadano extranjero, emitida tras conocerse un método para evadir los guardarraíles (“jailbreak”) del modelo. Es el primer caso conocido de un proveedor frontier que retira un modelo en producción por intervención del gobierno federal.

Resumen técnico

Campo	Detalle
Modelos afectados	Claude Fable 5 (versión con clasificadores de seguridad) y Claude Mythos 5 (acceso restringido, mismos pesos base)
Desarrollador	Anthropic
Tipo de incidente	Jailbreak / bypass de guardarraíles → escalado a acción regulatoria (control de exportación)
Vector reportado	Ataque multi-agente: descomposición/recomposición de prompts, homóglifos Unicode, narrative framing y prompting de contexto largo. Atribuido a “Pliny the Liberator”
Capacidad demostrada (alegada)	Generación de guía de explotación (buffer overflow de pila en x86 Linux) y filtración del system prompt (~120.000 caracteres)
Impacto	Bloqueo global de ambos modelos; resto del catálogo (Opus 4.8, etc.) no afectado
Fecha de lanzamiento	9 de junio de 2026
Fecha de la directiva / apagado	12 de junio de 2026, 17:21 ET

Cronología del incidente

Fecha	Evento
Abril 2026	El Mythos Preview gana notoriedad por su capacidad para identificar fallos de seguridad en software
Feb–Mar 2026	Anthropic rechaza demandas del Pentágono (armas autónomas / vigilancia); es designada “riesgo para la cadena de suministro” con orden de cese de uso en agencias federales
9 de junio de 2026	Lanzamiento dual de Fable 5 (público, con clasificadores) y Mythos 5 (cerrado, bajo Project Glasswing)
~11 de junio de 2026 (≈48 h)	“Pliny the Liberator” publica el método de jailbreak y lo que asegura es el system prompt interno (~120k caracteres)
12 de junio de 2026, 17:21 ET	Anthropic recibe la directiva del Departamento de Comercio: suspender todo acceso de extranjeros, dentro y fuera de EE. UU.
~12 de junio de 2026 (≈72 h)	Apagón global de ambos modelos, por imposibilidad de segmentar el acceso por nacionalidad

Contexto: un lanzamiento dual que duró menos de un fin de semana

El 9 de junio de 2026, Anthropic lanzó dos modelos de su nueva clase Mythos, un tier que la compañía sitúa por encima de su clase Opus en capacidad. Fable 5 y Mythos 5 comparten el mismo modelo base y se diferencian por una capa de clasificadores de seguridad.

Fable 5 era la versión de disponibilidad general “con guardarraíles”. Cuando una consulta activa un clasificador en categorías de alto riesgo —ciberseguridad, biología, química o destilación de modelos— Fable 5 no responde con el modelo completo: realiza un fallback silencioso a un modelo menos capaz (Claude Opus 4.8) y notifica al usuario del cambio. Mythos 5, con algunas de esas restricciones removidas, quedó reservado a un grupo cerrado de organizaciones verificadas bajo el programa Project Glasswing, precisamente por preocupaciones de ciberseguridad.

Antes del lanzamiento, Anthropic invirtió más de mil horas de red-teaming con agencias de EE. UU. y Reino Unido y un programa externo de bug bounty, y afirmó no haber encontrado ningún jailbreak universal. A las ~72 horas, ambos modelos estaban apagados a nivel global. No por una caída técnica, sino por una directiva regulatoria.

El problema técnico: el jailbreak y la fragilidad de los guardrails

Qué se alegó

Poco después del lanzamiento, el red-teamer conocido como “Pliny the Liberator” —figura reconocida por publicar bypasses de prácticamente cada modelo frontier— afirmó públicamente haber “liberado” Fable 5. Según su descripción, la técnica no explotó vulnerabilidades de código, sino debilidades lógicas del propio modelo y de su capa de clasificación. El vector reportado combinó técnicas conocidas de evasión:

Descomposición / recomposición: fragmentar una solicitud prohibida en sub-prompts individualmente benignos que recomponen una salida restringida al ensamblarse.
Homóglifos / manipulación Unicode: sustituir caracteres por equivalentes visualmente idénticos para que el clasificador no reconozca la “palabra prohibida”.
Narrative framing y contexto largo: envolver la solicitud en marcos académicos o narrativos y aprovechar conversaciones de contexto extendido.
Coordinación multi-agente (descrita por el autor como un “pack hunt”).

Las capturas difundidas mostraban, presuntamente, guía de explotación de stack buffer overflow para x86 Linux y la filtración del system prompt del modelo (~120.000 caracteres) a un repositorio público.

Por qué esto importa desde la óptica del riesgo cibernético: el escenario que preocupa no es que un LLM “sepa” sobre overflows —eso es conocimiento ampliamente disponible—, sino que un modelo de clase frontier, optimizado para ingeniería de software, pueda ser dirigido a leer una base de código concreta e identificar/corregir fallos. Esa misma capacidad, invertida, es asistencia para descubrir y explotar vulnerabilidades a escala.

La posición de Anthropic: un bypass disputado

Anthropic niega que esto constituya un jailbreak real en sentido estricto, y esa disputa es parte central del incidente. La compañía argumenta que un jailbreak verdadero tendría que sortear las salvaguardas centrales y entregar asistencia significativa hacia actividades de alto riesgo, mientras que lo demostrado se apoya en coaxing —insistir hasta que el modelo continúe pese a sus rechazos conversacionales—, una limitación conocida y longeva presente en casi todos los LLM. Según la compañía, la técnica que el gobierno usó como base de la directiva solo permitió identificar un puñado de vulnerabilidades menores ya conocidas, y otros modelos públicos —menciona GPT-5.5— producen la misma salida sin necesidad de ningún bypass.

Es clave que Anthropic no presenta los clasificadores como infalibles: reconoce abiertamente que hoy ningún proveedor logra resistencia perfecta a jailbreaks. Su enfoque es una estrategia de defensa en profundidad declarada como diseño deliberado: ingenierizar los jailbreaks no universales para que sean estrechos en alcance, hacer los universales prohibitivamente costosos de producir, y combinarlo con monitoreo integral para detectar y cerrar ataques exitosos con rapidez. Como parte de esa estrategia, Anthropic implementó una política de retención de datos de clientes de 30 días para los modelos clase Mythos, destinada a apoyar la investigación y mitigación continua de jailbreaks.

El desacuerdo sobre la severidad importa menos que el hecho operativo: la capa de contención de un modelo frontier fue al menos parcialmente eludida en horas, usando solo manipulación de prompt —sin explotar una vulnerabilidad de software clásica—. La superficie de ataque aquí es la lógica del clasificador, no el binario. Y la retención de 30 días introduce su propia consideración de residencia de datos: los prompts y salidas enviados a estos modelos quedaban retenidos un mes.

Contexto regulatorio: control de exportación sobre el modelo, no sobre el chip

El gobierno de EE. UU., citando autoridades de seguridad nacional, emitió una directiva de control de exportaciones (firmada por el secretario de Comercio Howard Lutnick, según NBC News) que ordena suspender todo acceso a Fable 5 y Mythos 5 por parte de cualquier ciudadano extranjero, dentro o fuera de EE. UU., incluidos empleados extranjeros de la propia Anthropic.

La carta llegó el 12 de junio a las 17:21 ET y no detalló la preocupación específica; el entendimiento de Anthropic es que se relaciona con el método de jailbreak. Como no es posible filtrar ciudadanos extranjeros de usuarios estadounidenses en tiempo real, la única vía de cumplimiento fue apagar ambos modelos para todo el mundo. El resto del catálogo de Anthropic no se vio afectado. La compañía declaró estar en desacuerdo, calificar la medida de probable malentendido, y se comprometió a publicar más detalles técnicos en las 24 horas siguientes a la directiva.

Lo verdaderamente inédito no es controlar la exportación de software —el cifrado estuvo bajo controles ITAR/EAR durante las “Crypto Wars” de los noventa—. Lo nuevo es el objeto del control: históricamente las restricciones sobre IA recaían en el hardware (chips de cómputo avanzado); aquí recaen sobre el modelo y su acceso, tratando la capacidad del modelo como tecnología controlada por sí misma. El riesgo regulatorio se traslada de la capa de silicio a la capa de API.

Trasfondo, sin editorializar: el episodio no ocurre en el vacío. En febrero–marzo de 2026 Anthropic se negó a eliminar salvaguardas para uso en armas autónomas y vigilancia solicitado por el Pentágono, lo que derivó en su designación como “riesgo para la cadena de suministro”. Lo accionable para un análisis de riesgo no es quién tiene razón, sino constatar que la disponibilidad de un proveedor de IA puede verse afectada por una disputa entre ese proveedor y un Estado.

Impacto y recomendaciones (DevSecOps / Blue Team)

Independientemente de quién tenga razón sobre la severidad del bypass, el efecto operativo es concreto: un modelo en producción desapareció con ~horas de aviso. Es un incidente de disponibilidad de severidad alta inducido externamente, con dos propiedades que lo distinguen de una caída ordinaria: no es transitorio por diseño (la causa raíz es legal, no técnica, así que no hay runbook del proveedor que lo resuelva) y no está cubierto por el SLA (una orden gubernamental suele caer bajo fuerza mayor / cumplimiento legal).

Superficie de impacto

Pipelines de CI/CD y coding assistants que dependieran del endpoint de Fable 5: degradación o ruptura inmediata.
Productos con el modelo “encadenado” (agentes, herramientas de análisis de código): fallos en cascada si no hay fallback.
Cumplimiento y residencia de datos: una directiva que distingue por nacionalidad —sumada a la retención de 30 días— introduce ejes de riesgo que pocos threat models contemplan.

Recomendaciones técnicas

Diversificación de modelos / abstracción de proveedor. Introduce una capa de routing (gateway/abstracción de LLM) que permita conmutar entre proveedores sin reescribir la integración. No acoples lógica de negocio a un model string concreto.
No dependas de una sola API frontier para funciones críticas. Define un modelo de respaldo de otro proveedor, validado previamente para tus prompts y evals, y ejercita el failover (game days).
Despliega un modelo open-weight local como contingencia. Un modelo de pesos abiertos on-prem o en tu VPC es un modo degradado garantizado que también te inmuniza frente a la retirada regulatoria, porque los pesos ya están en tu perímetro.
Planes de contingencia ejecutables. Trata “el modelo X deja de estar disponible en <1 h” como un escenario de tu runbook, con criterios de activación y fallback automatizado.
No confíes la seguridad a los guardrails del proveedor. Aplica controles duros del lado servidor (filtrado de entradas/salidas en dominios sensibles), no solo rechazos conversacionales. Si el clasificador del proveedor falla, tu control compensatorio debe seguir en pie.
Audita la procedencia de cada respuesta. Dado el fallback silencioso a un modelo más débil, exige y registra los metadatos de modelo que devuelva la API. Si no se exponen, considéralo un riesgo de integridad de salida.
Incorpora el riesgo regulatorio al vendor risk assessment. ¿Cómo segmenta el proveedor el acceso por jurisdicción/nacionalidad? ¿Qué cláusulas cubren una orden gubernamental? ¿Cuánto retiene tus datos? ¿Existe opción bring-your-own-weights? ¿Cuál es el RTO real si el modelo se retira?

Advertencia operacional. Si en tu organización un único frontier endpoint es punto único de fallo para un proceso de negocio, este incidente es tu post-mortem prestado. La probabilidad de “apagado por causa no técnica” dejó de ser cero.

Recapitulando…

Más allá de quién acabe teniendo razón sobre si el bypass fue un jailbreak real, el incidente Fable 5 / Mythos 5 deja un precedente difícil de ignorar para la ingeniería de seguridad:

La capa de clasificación como instrumento contundente. Un clasificador por palabra clave y categoría frente a un modelo potente es, por diseño, evadible por descomposición y ofuscación. La madurez de seguridad de los LLM aún se juega en esa frontera, y el propio Anthropic asume el fallo como inevitable: su apuesta no es la barrera perfecta, sino hacer el bypass caro y detectable.
Una propiedad de seguridad de un modelo puede tener consecuencias de disponibilidad globales. Que una vulnerabilidad (real o percibida) en un LLM derive en su apagado mundial cambia el modelo mental de riesgo de proveedor.
La transparencia del fallback no elimina el fallback. Hacer visible la degradación a Opus 4.8 mejora la honestidad del sistema, pero el investigador legítimo sigue recibiendo el modelo más débil.

La conclusión para ingeniería no es alarmista, es de diseño: depender de un único modelo frontier en la nube para una función crítica es, hoy, un riesgo arquitectónico de primer orden. Se mitiga con lo de siempre —desacoplamiento, redundancia, contingencia local, controles propios— aplicado a una dependencia que muchos equipos todavía tratan como permanente. El día que el modelo no exista —por caída, por precio o por decreto— tu sistema debe seguir en pie.

Referencias

Anthropic. (2026, 9 de junio). Claude Fable 5 and Claude Mythos 5. https://www.anthropic.com/news/claude-fable-5-mythos-5

Anthropic. (2026, 12 de junio). Statement on the US government directive to suspend access to Fable 5 and Mythos 5. https://www.anthropic.com/news/fable-mythos-access

Bloomberg. (2026, 13 de junio). Anthropic Says US Orders Halt to Foreign Access for Fable 5, Mythos 5. https://www.bloomberg.com/news/articles/2026-06-13/anthropic-says-us-limits-foreign-access-to-fable-5-mythos-5

CNBC. (2026, 12 de junio). Anthropic disables access to Fable 5 and Mythos 5 to comply with government directive. https://www.cnbc.com/2026/06/12/anthropic-disables-access-to-fable-5-and-mythos-5-to-comply-with-government-directive.html

NBC News. (2026, 13 de junio). Anthropic suspends new AI models after government directive. https://www.nbcnews.com/tech/tech-news/anthropic-suspends-new-ai-models-fable-mythos-government-directive-rcna349901

Cyber Security News. (2026, 13 de junio). Anthropic Fable 5 and Mythos 5 Access Blocked to All Users Following Government Directive. https://cybersecuritynews.com/anthropic-fable-5-and-mythos-5-access-blocked/

Fortune. (2026, 13 de junio). Anthropic disables Fable and Mythos AI models following U.S. government export ban. https://fortune.com/2026/06/13/anthropic-disables-fable-mythos-export-controls-national-security-threat/

SecurityWeek. (2026, 11 de junio). Anthropic Disputes Fable 5 AI Jailbreak. https://www.securityweek.com/anthropic-disputes-fable-5-ai-jailbreak/

Cybersecurity News. (2026, 12 de junio). Anthropic’s Claude Fable 5 Alleged Jailbreak to Generate Stack Exploits. https://cybersecuritynews.com/anthropics-claude-fable-5-jailbroken/

Congress.gov (CRS). Pentagon-Anthropic Dispute over Autonomous Weapon Systems. https://www.congress.gov/crs-product/IN12669 NPR. (2026, 26 de febrero). Deadline looms as Anthropic rejects Pentagon demands it remove AI safeguards. https://www.npr.org/2026/02/26/nx-s1-5727847/anthropic-defense-hegseth-ai-weapons-surveillance