Quando il cloud cade: come un piccolo errore ha messo in ginocchio la rete globale
Quest’autunno, abbiamo avuto un bel po’ di grattacapi con il cloud, non so se ci avete fatto caso. Cioè, AWS, Azure, e dopo Cloudflare. Tutti giù, uno dopo l’altro.
Una sfilza di interruzioni che ci hanno dimostrato una cosa molto seria: oggi, un errore stupido di configurazione interna o un pasticcio coi metadati è l’equivalente moderno di un massiccio blackout.
Sì, proprio così.
Nel giro di quattro settimane, si sono bloccati tutti e tre i giganti, e ogni volta il problema veniva da dentro, dall’infrastruttura stessa dei provider. Non è che c’era troppa gente, o il picco stagionale, o chissà quale attacco alla rete, no.
La cosa assurda, e un po’ inquietante, è che evidenzia quanto sono fragili questi sistemi, giganteschi ma delicati come cristallo, dove una piccola, piccolissima modifica a un componente può scatenare un inferno di conseguenze.
I primi a inciampare: AWS e il DNS
I tecnici AWS sono stati i primi a far partire la catena di eventi, il 20 ottobre. Era un problema del servizio DNS nella regione US-EAST-1 – sempre lei, tra l’altro, chissà perché capita sempre lì, ma vabbè. E da lì, amici, reazione a catena.
Il problema DNS ha scavallato il singolo cluster e si è diffuso. Messaggistica, giochi, piattaforme di streaming… tutto bloccato. L’errore in un componente core ti sbatte in faccia quanto migliaia di aziende, e noi tutti, dipendiamo da come funziona la meccanica interna del cloud. Non è rassicurante, nemmeno un pò.
Il turno di Azure, pochi giorni dopo
Nove giorni dopo, eccoci di nuovo. Tocca ad Azure. Era il 29 ottobre se non ricordo bene. Lì tutto è partito da una modifica sbagliata al sistema di distribuzione dei contenuti. Cloud Microsoft globale in tilt.
Anche i loro servizi, inclusi quelli proprietari tipo lo strumento di automazione 365 Copilot, sono andati a farsi benedire, e ovviamente anche tutte le app di terzi che usano Azure per i calcoli e l’autorizzazione. Una cosa banale nella configurazione ha mandato in avaria l’intera rete distribuita che fa girare un sacco di flussi di lavoro.
Cloudflare: il file che si gonfiava
Ma l’incidente più, non so, forse più eclatante è stato il blackout di Cloudflare. Sempre in autunno, eh. Lì la causa era un file di configurazione. Quello che dovrebbe filtrare il traffico strano, quello sospetto. Questo file, per qualche ragione è divenuto enorme, una cosa fuori scala.
Il modulo interno che gestisce la rete è andato in crash, di fatto. Cloudflare instrada il traffico per un numero immenso di risorse, capite? E se crolla anche solo una sezione, beh… X, ChatGPT, IKEA e Canva. Tutta roba grossa che si è interrotta per ‘sto file. Un errore interno che si è portato dietro mezzo internet.
Entriamo nell’era della “Nuova Interruzione di Corrente”
Il succo di tutta questa storia, il denominatore comune, è che il problema non è venuto fuori da solo. Niente di esterno. Solo cambiamenti interni, che succedono in processi automatizzati, roba di routine.
Internet, oggi, si è trasformato, dicono gli esperti – e hanno ragione, secondo me – in un sistema di sistemi interdipendenti: DNS, piani di controllo cloud, servizi di autenticazione... Tutto opera sulla stessa infrastruttura dei provider.
Se ne salta uno, l’altro ne risente subito. L’effetto cascata lo vedi senza neanche dover aspettare: è istantaneo.
L’automazione spinta, poi, e l’altissima densità di potenza di calcolo che è tutta concentrata in mano a questi giganti (sono pochi, sono pochi!) fa sì che un piccolo intervento, che magari a livello singolo sembra giusto, diventi la miccia per un’interruzione a catena. Tutto va velocissimo, non hai il tempo di intervenire manualmente.
Ecco perché, dicono gli esperti del settore – e questa è una bella immagine – questi errori di configurazione stanno diventando, di fatto, le interruzioni di corrente nell’era del calcolo distribuito: un passo falso, uno solo, e salta tutto, su servizi diversi.
Cosa fare, in pratica?
Insomma, questi incidenti hanno palesato una cosa semplice ma allo stesso tempo altamente preoccupante: la resilienza dei sistemi cloud non riesce a tenere il passo con quanto sono diventati scalabili. L’infrastruttura assomiglia sempre più a una rete elettrica ad alta tensione, che se superi una soglia, parte la reazione a catena.
Le aziende, dovranno per forza cambiare il modo di costruire le loro architetture.
Usare più provider indipendenti, non uno solo, per bilanciare e salvaguardare il loro “running”. Questi approcci aiutano a evitare situazioni in cui un singolo errore porta all’arresto completo dei processi critici.
E non vogliamo questo, vero? No, non lo vogliamo.
L'articolo Quando il cloud cade: come un piccolo errore ha messo in ginocchio la rete globale proviene da Red Hot Cyber.
