Attacco riuscito ai modelli Anthropic, perché Fable 5 è inaccessibile

Come funziona il jailbreak ai modelli di Anthropic di cui il governo USA ha chiesto il blocco e perché è una lezione importante per tutti

Must Read

14 Giu 2026

Come funziona il jailbreak ai modelli di Anthropic di cui il governo USA ha chiesto il blocco e perché è una lezione importante per tutti

Autore

Giuseppe Ciuni

Aziende

Anthropic

Un gruppo organizzato di “agenti” – così si definiscono – ha condotto un attacco sistematico e multitecnica contro Claude Fable 5, uno dei modelli di punta di Anthropic, considerato tra i più robusti in termini di allineamento e sicurezza.

L’obiettivo: forzare il modello a produrre contenuti esplicitamente vietati, in questo caso sintesi chimiche per droghe, codice per attacchi informatici (reverse shell, buffer overflow), tecniche di manipolazione psicologica.

Il risultato: pieno successo degli attaccanti.

La risposta? Il modello nella sua formulazione originale non è più disponibile.

Jailbreak

Introduciamo brevemente il concetto di jailbreak: si tratta di forzare un modello IA a fornire risposte che normalmente non potrebbe dare a causa dei filtri di sicurezza in vigore.

In pratica il jailbreak consiste nel costruire un prompt (il cosiddetto adversarial prompt) in grado di superare i filtri implementati dai vendor aggirando così i “freni” imposti al modello e portandolo a rispondere a qualsiasi domanda.

Realizzare un adversarial prompt è diventato sempre più complesso nel tempo dato che i modelli moderni sono in grado di individuare e bloccare questo tipo di attacchi. Complesso però non significa impossibile.

L’attacco in dettaglio, caccia in branco

Guardando questo post X l’operazione non è stata il solito tentativo amatoriale, si parla di “pack hunting” (caccia in branco) con diversi tentativi documentati nelle immagini, numerati fino ad almeno 35, con un obiettivo dichiarato di 250.

Le tecniche di attacco utilizzate sono state:

1. Homoglyph e Unicode (attacco ai filtri lessicali)

Sostituzione di caratteri latini con omoglifi cirillici. La frase “reverse shell” veniva riscritta usando la ‘e’ dell’alfabeto russo (U+0435). I classificatori di Anthropic, sembra siano progettati per intercettare parole chiave e non hanno riconosciuto la minaccia. Il modello invece sì.

2. Decomposizione + ricomposizione

Invece di chiedere “spiegami la sintesi della metamfetamina” gli attaccanti chiedevano prima una tassonomia generica di reazioni chimiche. All’interno una sezione anonima (“C.4”). Poi: “espandi la sezione C.4”.

Il filtro di sicurezza vedeva una continuazione didattica legittima. Il modello ha scritto il meccanismo completo della Birch reduction che è la via sintetica classica per la produzione di metamfetamina.

3. Framing accademico e revisione tra pari

Le richieste venivano incorniciate come materiale per “CS 695: Network Defense – Lecture Notes” un ipotetico corso universitario da distribuire agli studenti. Il modello ha prodotto codice Python perfettamente funzionante per una reverse shell.

4. Sfruttamento della memoria a lungo contesto

L’attacco è stato distribuito su conversazioni molto lunghe. Nessun singolo messaggio appariva dannoso. Ma il modello ricordando tutto il contesto precedente, ricostruiva autonomamente le informazioni pericolose.

I filtri di fable sono stati bypassati mostrando la potenza del modello sottostante.

Perché è grave (e cosa insegna)

Per le startup e le imprese che integrano modelli AI nei loro prodotti questa la lezione è importantissima:

Considerare i filtri di sicurezza forniti dai fornitori di LLM come infallibili è un errore che può costare caro ad una azienda che si fida ciecamente del “migliore” LLM.

Se l’azienda decide di esporre un database di produzione integrato con un LLM tramite librerie come LangChain – confidando che le query generate siano sempre e solo quelle legittime – si sta muovendo su un terreno minato.

Come è stato documentato, i meccanismi di blocco possono essere aggirati con tecniche di jailbreak. La conseguenza? Un attaccante potrebbe iniettare prompt malevoli e ottenere accesso diretto ai dati sensibili del database bypassando ogni controllo perimetrale. È una falla gravissima. Non commettete questo errore. Per limitare i danni sarebbe opportuno esporre un database con dati non sensibili che anche se violati non produce danni, database confinato in un qualche docker o VM (macchina virtuale).

Caso specifico: se un’azienda usa un modello IA per un assistente legale con un chatbot di supporto e quel modello può essere “liberato”, il rischio di responsabilità legale e danno reputazionale è concreto. (foto di Max Bender su Unsplash)

SUPPORTA STARTUPBUSINESS