Quando i Server Bruciano…

…tanti pensieri ci girano nella testa: perché proprio a me? Chissà se i backup funzionano? Sarò in grado di ripartire?
Queste sono alcune delle cose che ho pensato lo scorso mercoledì mattina, quando ho scoperto che il server di Fribbynetwork, quello che ospita tutti i siti del gruppo era andato letteralmente in fumo.

Cosa è successo

Mercoledì notte prima dell’1, un incendio divampa in una struttura OVH a Strasburgo in Francia, la stessa struttura in cui si trova il nostro server.

Al mattino vedendo che non era raggiungibile, sono andato sul sito di OVH per vedere le problematiche attive ed ho fatto la triste scoperta, trovando poi tanti articoli di giornale che ne parlavano.

Domande che ora potreste avere

– Perché proprio in Francia? OVH è la nostra scelta ormai da quasi 10 anni, per l’ottimo rapporto qualità/prezzo dei server disponibili. In Italia qualcosa di analogo ci sarebbe costato 2-3 volte di più, senza comunque ottenere le medesime caratteristiche: ampiezza di banda, caratteristiche hardware, backup e controllo attacchi DDos integrato, etc.

– Perché a Strasburgo? I nostri 2 server precedenti si trovavano nel nord della Francia, ma abbiamo cambiato lo scorso Agosto, usufruendo sia di una promozione interessante, ma anche per la possibilità di avvicinarci all’Italia, il Ping dal Nord infatti si attestava a 15-20ms un ottimo valore!

– Come mai 3 giorni di stop? Per una mia leggerezza non avevo più accesso all’account OVH: non potevo entrare e controllare la situazione, né acquistare un nuovo server.
La mattina del 10 ho contattato il servizio clienti, che nonostante il caos e la mole di clienti furiosi è stato cortese e mi ha aiutato con la mia problematica. Purtroppo a causa di un disguido burocratico (anche nel mezzo di emergenze si devono usare un sacco di carte per privacy e sicurezza) mi è stato sbloccato l’account solamente venerdì 12 mattina.
Ho subito provveduto a controllare: il mio server era sicuramente bruciato, ho iniziato così le pratiche per l’acquisto di un nuovo server in un altro datacenter, purtroppo alcune fasi sono state moltissimo rallentate, come la consegna di un nuovo set di IP (molto probabilmente per la mole incredibile di richieste/operazioni in tutti i loro server) che ha necessitato di quasi 6 ore.
Il server è stato finalmente pronto solo a notte, ho modificato i valori dei DNS per far puntare tutti i siti al nuovo server e verso le 2 de mattino di sabato 13 tutti i siti erano tornati online.

– Sono stati persi dei dati? Purtroppo sì: tutti i link creati su gat.to dalle 2 del mattino del 9 marzo al momento dell’incendio, quindi circa 24 ore. Gli altri siti invece non hanno subito perdite di dati.
Al momento non sappiamo se questi dati potranno mai essere recuperati. Me ne dubitiamo.

– Quali sistemi utilizzate per evitare la perdita dei dati? I nostri server hanno sempre previsto la presenza di almeno 2 dischi con immagazzinati gli stessi dati, in caso di guasto di uno dei due nessun dato sarebbe perso (un guasto ad entrambi, nello stesso momento è un’eventualità molto rara), in più ogni notte effettuiamo un backup generale del server. Anche la notte del 10 marzo il backup aveva avuto inizio, se l’incendio si fosse propagato solamente 30 minuti dopo si sarebbe completato e nessun dato sarebbe stato perso.

Perché non prevedere un doppio server o più backup? Ho letto in tanti articoli di giornali e testate online attacchi contro aziende/siti web per non avere previsto un recovery/disaster plan: L’acquisto di un doppio server sempre disponibile in caso di problematiche analoghe non è al momento sostenibile, siamo troppo piccoli per affrontare questo genere di spese, se ovviamente riusciremo a crescere saremo ben felici di acquistare più server per tutelarci e tutelarvi. I backup invece si effettuano solitamente di notte perché il processo rallenta enormemente il server, per questo non prevediamo al momento di effettuare backup completi anche di giorno, ma sto pensando di prevedere backup più leggeri di solo alcuni tipi di dati da effettuarsi anche di giorno, questo però limiterebbe solo il tempo in cui alcuni dati potrebbero essere persi, non annullerebbe completamente la possibilità.

Poi certo, se aziende da milioni di euro l’anno, hanno risparmiato qualche decina di migliaia di euro per avere server di backup/copie per ripartire subito, è ovviamente un altro discorso, ma non capisco questo accanirsi contro piccole realtà/aziende.

– Perché affidarsi nuovamente ad OVH dopo quello che è successo? Conosco bene OVH, come funziona, come acquistare/configurare, per ripartire nel più breve tempo possibile era la soluzione più sensata. Ovviamente penserò concretamente ad un cambio: al momento non ho alcun tipo di informazione su quali soluzioni ha in mente OVH per aiutare i clienti colpiti direttamente da questo incendio: l’affitto del server bruciato scadeva a fine marzo, quindi nel mio caso il danno è stato di poco conto, ma ho dovuto comunque acquistare completamente a mie spese un nuovo server, perdendo la promozione che avevo ottenuto con il precedente.
Se avessi aspettato azioni dirette di OVH al momento sarei ancora offline.

In quasi 10 anni questo è stato lo stop più lungo: al massimo i nostri server sono stati offline poche ore all’anno, solo per effettuare operazioni di backup particolari o cambi di location e francamente speriamo che qualcosa di analogo non capiti più.