Szerver-monitorozás a kulisszák mögött

Rendszergazda„Köszönjük bejelentését! Tudunk a problémáról, az illetékesek jelenleg is dolgoznak a hiba javításán.”

Te is kaptál már tőlünk korábban ilyen válasz e-mailt? Most megmutatjuk, mi történik az üzenet másik oldalán, a kulisszák mögött.

A „nagy testvér” figyel

Rendszergazdáink a nap 24 órájában figyelnek arra, hogy a szervereinken futó szolgáltatások, így a Te weboldalad is megfelelően működjön.

Ebben két, szimultán futó szerver-monitorozó rendszer van a segítségünkre. Az egyiket az adatpark biztosítja számunkra, a másikat pedig saját magunk konfiguráljuk, ez a Zabbix szolgáltatása. Utóbbi számára két külön szervert is fenntartunk, – az egyik a multiservereinket figyeli, a másik pedig az összes többi tárhely- és levelezőszerverünket – melyek az egyes szerverekre telepített Zabbix agent-ekkel kommunikálnak folyamatosan.

zabbix

 

Minden megfigyelt szolgáltatásunk 2 percenként kerül ellenőrzésre. Egyrészt azt figyeljük, hogy rendben fut-e az adott szolgáltatás vagy sem, másrészt előre beállított terheltségi szinteket is tudunk vele figyelni. Így, ha az adott mutató megközelít egy kritikus szintet (például egy szerveren 24 GB memóriából már csak 2 GB elérhető), rendszergazdáink még a baj bekövetkezése előtt, 2 percen belül tudni fognak róla, és haladéktalanul megkezdik a hibadetektálást és a javítást. Így lehetséges az, hogy mi valójában már a hibabejelentések előtt értesülünk a problémáról, és teljes erőbedobással dolgozunk a javításon.

Mégis miket figyelünk az egyes szervereken?

Olyan dolgokat, mint a kimenő levelek sorbanállása (így vehetők észre például a spammerek), a processzorok terheltsége, a disc-ek kihasználtsága, és az egyes szolgáltatások futása (Pl. web-, ftp- és adatbázis kiszolgálók, levelezésnél: pop3, imap, smtp).

És honnan értesülnek ezekről a rendszergazdáink?

Igénybe veszünk egy olyan prémium szolgáltatást is, ami sms értesítés formájában figyelmeztet minden apróbb eltérésre az optimálistól, illetve ezek helyreállásáról is. A nap folyamán minden rendszergazdánk kap ilyen sms értesítést, így időnként nem csak az ügyfélszolgálati iroda hangos a telefoncsipogástól. Az élet viszont nem áll meg irodazárás után, ügyeletesünk a nap 24 órájában figyeli ezeket az értesítéseket, így nem egyszer fordul elő, hogy legszebb álmából felkeltve, a hajnali órákban kell sürgősen újraindítania egy apache-ot, vagy ellenőriznie, hogy mennyire súlyos a helyzet. Sőt, bizonyos esetekben még egy automata is felhívja a rendszergazdánkat, hogy riasszon!

Gondoltad volna?

  • Egy tárhely szerveren átlagosan 64 monitorozó triggert futtatunk, levelező szervereknél 87-et.
  • Naponta akár 150 sms riasztás is érkezhet, ami azt jelenti, hogy átlagosan 9,6 percenként kapunk egy telefonos értesítést. Ezek kb. 80%-a csupán elővigyázatosságból érkezik, és magától megoldódik perceken belül (pl. magas load).
  • 0,1%-os kiesés évente 525,6 percet, vagyis majdnem 9 órát jelent. A mi stabilitásunk ezt tartósan túlszárnyalja, amit az utóbbi hónapokban biztosan ti is tapasztaltatok. Ezt részben a már bemutatott (levelezőrendszer 3.0, blade szerver) fejlesztéseink révbe érésének köszönhetjük, hamarosan rendelhető Multiserver szolgáltatásunknál pedig a kiesés végképp csak egy rossz álom lesz.

 

 

Fejlettebb, okosabb vírusirtás – egy önfeláldozó példán keresztül

Közösségi média nélkül nem fog menni

Hasznos böngésző-kiegészítők fejlesztőknek

 

 

 

Oszd meg a gondolataidat