Prompt Injection: la vulnerabilità numero uno che minaccia l’AI mondiale

14 Ottobre 2025 ICT, Rassegna Stampa, Security

Nell’aprile 2025, i ricercatori di HiddenLayer hanno annunciato una scoperta che ha fatto tremare Silicon Valley: il primo attacco universale di prompt injection capace di violare tutti i principali modelli AI – da ChatGPT a Claude, da Gemini a Llama – con un singolo comando malevolo. Questa tecnica, denominata “Policy Puppetry”, rappresenta l’evoluzione più pericolosa di quella che l’OWASP ha classificato come la vulnerabilità numero uno dei sistemi di intelligenza artificiale.

L’impatto economico è già devastante: secondo IBM, il costo medio di una violazione dei dati ha raggiunto i 4,88 milioni di dollari nel 2024, con un incremento del 10% rispetto all’anno precedente. Per le aziende del settore finanziario, particolarmente vulnerabili agli attacchi di prompt injection, la cifra sale a 6,08 milioni di dollari per incidente. Ma questi numeri potrebbero essere solo la punta dell’iceberg in un mercato AI che vale oltre 100 miliardi di dollari di investimenti annuali.

L’epidemia silenziosa che colpisce il 75% delle aziende

Le statistiche allarmanti del 2024-2025

I dati più recenti dipingono un quadro preoccupante dell’escalation degli attacchi di prompt injection. Secondo le ricerche di Palo Alto Networks, alcune tecniche di attacco raggiungono tassi di successo tra il 65% e l’80% attraverso diversi modelli LLM. Ancora più allarmante: il 99% degli utenti aziendali ha almeno un’estensione browser installata che può essere sfruttata per attacchi “Man-in-the-Prompt”, secondo LayerX Security.

Microsoft rivela che il 75% dei dipendenti aziendali utilizza l’AI generativa nel proprio lavoro, con il 46% che l’ha adottata solo negli ultimi sei mesi. Questa rapida diffusione ha creato una superficie di attacco senza precedenti. Coalition Inc. riporta che gli attacchi di phishing potenziati dall’AI sono aumentati dell’856%, con una riduzione dei costi di implementazione fino al 95% per i criminali informatici.

Le vulnerabilità segnalate quotidianamente sono passate da 113 nel 2024 a 131 nel 2025 secondo Indusface, con un tasso di weaponization dello 0,91% – apparentemente basso ma che rappresenta oltre 200 CVE attivamente sfruttate dai criminali.

I casi più eclatanti che hanno scosso il settore tech

ChatGPT e la memoria compromessa

Uno degli attacchi più sofisticati del 2024-2025 ha sfruttato la funzione memoria di ChatGPT per consentire l’esfiltrazione persistente di dati attraverso multiple conversazioni. Gli attaccanti sono riusciti a memorizzare comandi malevoli nella memoria del sistema, attivabili successivamente per monitorare e rubare informazioni personali degli utenti. Tra i casi più significativi:

ShadowLeak (giugno 2025): vulnerabilità zero-click scoperta da Radware che permetteva l’esfiltrazione di dati tramite il sistema Deep Research di ChatGPT
SpAIware (2024): tecnica di Johann Rehberger per persistenza tramite memoria personalizzata
Multiple vulnerabilità reportate attraverso il programma bug bounty di OpenAI, che ora offre fino a 25.000 dollari per jailbreak universali

Google Gemini sotto attacco via email

Un caso particolarmente insidioso ha coinvolto Google Gemini, dove gli attaccanti hanno incorporato istruzioni malevole “admin” nei corpi delle email. Quando gli utenti cliccavano su “Riassumi questa email”, Gemini trattava il prompt nascosto come prioritario, creando campagne di phishing estremamente convincenti mascherate da avvisi di sicurezza Google legittimi. La vulnerabilità è stata scoperta da Marco Figueroa e reportata tramite 0Din nel programma bug bounty di Mozilla.

La manipolazione di Microsoft Copilot

Microsoft 365 Copilot, utilizzato da diverse aziende con licenze che arrivano a 10.000+ per singola organizzazione secondo i dati del Q3 2024, è stato vittima della vulnerabilità CVE-2025-32711 con un punteggio CVSS di 9.3. L’attacco, denominato “EchoLeak”, permetteva l’iniezione di comandi AI che potevano portare all’esecuzione di codice arbitrario e all’esfiltrazione di dati sensibili attraverso tecniche di ASCII smuggling. Microsoft ha implementato fix server-side per mitigare la vulnerabilità.

L’anatomia tecnica del pericolo: tipologie e metodologie di attacco

Prompt injection diretta vs indiretta

Le prompt injection dirette coinvolgono la manipolazione diretta dell’input utente per sovrascrivere le istruzioni di sistema. Tecniche come il “Role Play” (dove l’AI viene convinta di essere “DAN – Do Anything Now”) o l’offuscamento attraverso Base64, emoji o arte ASCII, continuano a evolversi. I ricercatori hanno identificato oltre 15 sottocategorie di attacchi diretti nel 2024.

Le prompt injection indirette sono ancora più pericolose: nascondono istruzioni malevole in fonti di dati esterne che l’AI processa. Document poisoning, RAG contamination e website injection rappresentano vettori di attacco particolarmente insidiosi perché l’utente attiva inconsapevolmente l’attacco.

Il jailbreaking di nuova generazione

Le tecniche di jailbreaking del 2025 sfruttano le finestre di contesto lunghe (oltre 1 milione di token) per sopraffare le misure di sicurezza attraverso esempi ripetuti. Gli attacchi multimodali nascondono istruzioni testuali all’interno di immagini, mentre la manipolazione della catena di pensiero contamina i processi di ragionamento dei modelli più avanzati.

L’impatto economico: miliardi in fumo

Il conto salato per le imprese

Forrester prevede che le perdite globali da criminalità informatica raggiungeranno i 12 trilioni di dollari nel 2025, con almeno 3 violazioni di dati pubblicamente attribuite a codice generato dall’AI. Il 48% delle organizzazioni ha subito violazioni superiori al milione di dollari, mentre il 27% delle violazioni maggiori costa tra 2 e 5 milioni di dollari per la remediation.

Il settore sanitario affronta i costi più elevati con una media di 10,93 milioni di dollari per violazione. L’attacco a Change Healthcare nel 2024 ha colpito 192,7 milioni di americani (dato aggiornato a gennaio 2025), richiedendo $8,9 miliardi in prestiti d’emergenza per i fornitori, con costi totali stimati tra $2,87 e $3,09 miliardi.

Confronto con altre minacce cyber

Mentre il ransomware ha generato 1,1 miliardi di dollari in pagamenti crypto nel 2023, e gli attacchi alla supply chain hanno causato 45,8 miliardi di dollari di danni, il prompt injection rappresenta una minaccia unica: è più difficile da rilevare (tempo medio di contenimento: 241 giorni) e sfrutta la stessa natura del processamento del linguaggio naturale che rende l’AI così potente.

Le contromisure dell’industria: una corsa contro il tempo

Google e la difesa a 5 livelli

Google ha implementato una strategia di difesa stratificata che include classificatori di contenuti ML addestrati su dati avversariali, rinforzo del pensiero di sicurezza, sanitizzazione del markdown, redazione degli URL sospetti e framework di conferma umana per operazioni rischiose. Questa architettura ha prevenuto con successo l’exploit EchoLeak che ha colpito altri sistemi.

L’approccio costituzionale di Anthropic

Anthropic ha ridotto i tassi di successo del jailbreaking dall’86% al 4,4% attraverso classificatori costituzionali. I loro 3.000+ ore di red team testing con ricompense di 15.000 dollari non hanno ancora scoperto un jailbreak universale, anche se persistono vulnerabilità a prompt injection basate su Unicode invisibili.

Meta e il paradosso open source

Il framework LlamaFirewall di Meta include PromptGuard 2 per la rilevazione di jailbreak e CodeShield per l’analisi statica del codice insicuro. Tuttavia, la ricerca di Trendyol ha mostrato un tasso di bypass del 50% su 100 payload testati, con vulnerabilità a attacchi multilingue e caratteri Unicode invisibili.

Il quadro normativo in evoluzione

L’AI Act europeo e le sanzioni milionarie

L’AI Act dell’UE classifica i sistemi AI ad alto rischio con requisiti stringenti di “accuratezza, robustezza e cybersecurity appropriate”. Le violazioni delle pratiche AI proibite possono comportare multe fino a 35 milioni di euro o il 7% del fatturato globale annuo. Le violazioni della governance dei dati arrivano a 20 milioni di euro o il 4% del fatturato.

GDPR e la vulnerabilità dei dati personali

La Commissione irlandese per la protezione dei dati ha pubblicato nel luglio 2024 una guidance dal titolo “AI, Large Language Models and Data Protection” che avverte: “I filtri possono essere attaccati e aggirati per causare la disponibilità o l’elaborazione di dati in modi non intesi, non autorizzati, insicuri o rischiosi”. Le organizzazioni devono condurre valutazioni d’impatto sulla protezione dei dati (DPIA) per l’elaborazione AI ad alto rischio.

Il cambio di rotta americano

L’amministrazione Trump ha rescisso il framework completo di Biden con l’ordine esecutivo “Removing Barriers to American Leadership in Artificial Intelligence” del 23 gennaio 2025, spostando verso un approccio di “autogoverno” con supervisione normativa ridotta. Tuttavia, gli esperti legali sostengono che il prompt injection violi il Computer Fraud and Abuse Act (CFAA).

Le previsioni degli esperti per il 2025

L’allarme dei ricercatori

Chenta Lee, Chief Architect of Threat Intelligence di IBM Security, avverte: “Con gli LLM, gli attaccanti non hanno più bisogno di Go, JavaScript o Python per creare codice malevolo, devono solo capire come comandare efficacemente un LLM usando l’inglese”.

Il Centre for Emerging Technology and Security conclude che il prompt injection rappresenta “un difetto di sicurezza fondamentale che non può essere facilmente patchato”. Con il 75% dei dipendenti aziendali che utilizzano l’AI generativa, la superficie di attacco continua ad espandersi esponenzialmente.

Gli investimenti in sicurezza AI

L’industria sta rispondendo con investimenti massicci: oltre 100 miliardi di dollari investiti globalmente nell’AI nel 2024 (33% di tutti i finanziamenti VC). Le aziende di sicurezza AI hanno raccolto round significativi:

Adaptive Security: $43 milioni co-guidati da OpenAI e a16z (aprile 2025)
Pillar Security: $9 milioni seed per rischi AI-specifici
Deep Sentinel: Due round da $15 milioni ciascuno (Series A maggio 2023 con Intel Capital, Series B giugno 2025 con Egis Capital Partners)

I programmi bug bounty hanno distribuito ricompense record: Google ha pagato $11,8 milioni di dollari a 660 ricercatori nel 2024, Meta $2,3 milioni, mentre OpenAI offre fino a $25.000 per jailbreak universali attraverso il programma GPT-5 Bio Bug Bounty.

Conclusione: una minaccia esistenziale per l’era dell’AI

Il prompt injection non è solo una vulnerabilità tecnica – è una sfida fondamentale all’architettura stessa dei modelli linguistici che alimentano la rivoluzione AI. Con tassi di successo degli attacchi tra il 65% e l’80%, tecniche di bypass universali che colpiscono tutti i principali modelli, e un panorama normativo frammentato, le organizzazioni si trovano in una posizione precaria.

La convergenza di adozione massiva aziendale, vulnerabilità sistemiche senza soluzioni complete esistenti, e impatto economico devastante in trilioni di potenziali perdite rende il prompt injection la minaccia di sicurezza definitiva del 2025. Le aziende devono implementare strategie di difesa a più livelli, investire in formazione AI e prepararsi a un futuro dove la sicurezza AI non è un optional ma una necessità esistenziale.

Come ha affermato PwC nelle sue previsioni 2025: “I leader aziendali non avranno più il lusso di affrontare la governance AI in modo inconsistente”. In un mondo dove un singolo prompt malevolo può compromettere sistemi del valore di miliardi, la sicurezza contro il prompt injection non è solo una priorità tecnica – è una questione di sopravvivenza aziendale.