Cum sa iti tratezi clientii
Monday, March 31st, 2008Dupa cum spuneam, toata ziua de ieri datacenter-ul ines a fost jos. Tot. Motivul? Electrica a pompat “un pic” mai multa energie decat trebuia, asa ca s-au ars ceva echipamente in Data Center. Spun “un pic” pentru ca cei de la ines folosesc 3 nivele de securitate pentru a proteja echipamentele.
Fast forward un pic, eOk, vertimo si BrainTV au fost la pamant pentru 18 ore. Ieri am sunat la ines din 15 in 15 minute. Misha a petrecut ziua de ieri instaland un server de backup in biroul Brainient.
Astazi s-a rezolvat. Cele 3 servere de la eOK n-au patit nimic, dar la 2 servere BrainTV s-a ars controller-ul RAID. Dupa cateva telefoane insistente au mutat hdd-urile pe alte servere si s-a rezolvat.
Cu toate aceste probleme, nu sunt foarte suparat pe ines. Pentru ca au comunicat, pentru ca au raspuns la telefon, pentru ca in cursul zilei de azi m-au sunat de 5 ori ca sa le confirm ca totul e ok, si pentru ca in seara asta mi-au dat un email in care au explicat ce s-a intamplat.
Am dat copy-paste mai jos cu email-ul de la ei.
Stimate client,
Ieri 30.03.2008 in jurul orei 15:15 a avut loc o intrerupere a
alimentarii echipamentelor din Data Center iNES.Astazi impreuna cu ingineri de specialitate de la firmele care ne-au
proiectat sistemul de alimentare cu energie electrica
si au furnizat echipamentele, am refacut care a fost succesiunea
intimplarilor, am verificat de ce operatiunile de repornire
manuala nu au functionat OK si am definit masurile care trebuiesc luate
pentru a evita asemenea situatii pe viitor.Avaria s-a datorat unei supratensiuni venite din reteaua de medie
tensiune a Electrica, supratensiune care a produs
strapungerea a 3 nivele de securitate care protejeaza echipamentele Dvs
din Data Center. Ca masura de protectie, sistemele
UPS aflate in Data Center au blocat alimentarea echipamentelor din aval
pentru a le proteja.Repunerea in functiune a sistemelor de siguranta s-a putut face numai
partial de catre personalul iNES; restabilirea
integrala a functionarii s-a facut doar dupa interventia echipei de la
Electrica la tabloul transformatorului 20KV in jurul orei 17:45.Desi alimentarea cu energie electrica a fost refacuta in aproximativ 2
ore, repornirea tuturor sistemelor a durat considerabil mai mult.
Cu ocazia acestei avarii am constatat deficiente in comunicarea cu
clientii si informarea lor:
- in scop de monitorizare, este foarte important sa permiteti trafic
ICMP dinspre adresa X.X.X.X catre echipamentele Dvs.
In absenta acestei monitorizari, au fost echipamente depre care nu am
stiut daca au repornit corect la reluarea alimentarii cu energie
electrica si a durat destul de mult pina la reluarea functionarii lor
- capacitatea noastra de a prelua apeluri telefonice a fost mica
deoarece era weekend. A fost decizia noastra ca personalul tehnic
sa se concentreze pe rezolvarea problemelor tehnice si sa nu se
intrerupa pentru a raspunde la apeluri pina nu se reia alimentarea
cu energie si functionarea sistemelor criticeVa rugam sa verificati faptul ca toate serviciile relevante pentru
serverul Dvs (de exemplu serviciul web, baze de date etc) sunt
configurate sa porneasca automat in timpul procesului de boot (secventa
de initializare a sistemului). Daca aveti nevoie de asistenta
tehnica in acest sens va rugam sa ne contactati.Ne cerem scuze pentru neplacerile create si va asiguram ca lucram intens
pentru a evita astfel de probleme pe viitor.
In acest sens, vom face in curind o lucrare de mentenanta anuntata si o
simulare de avarie cu scopul de a verifica faptul ca procedurile de
lucru si noile solutii tehnice adoptate sint corecte.–
Lucian Bîlã
iNES GROUP - Sales Director
Asa da. Felicitari ines. Si no hard feelings, dar saptamana asta o sa comand si un server la GTS, for safety reasons :).