Skyguard autóbiztonsági szolgáltatás teljes leállása - kritikus hiányosságok egy EuroOne partner IT rendszerében

Az üzletmenet-folytonosság és katasztrófa-elhárítás hiányosságainak következményei

Időigény: 10+ óra aktív problémamegoldás és kommunikáció

Időtartam: 40+ óra a szolgáltatás teljes leállásával

Anyagi kár: 80.000 Ft + ÁFA többletköltség a szervizben

Az eset szakmai szemmel: IT infrastruktúra és üzleti folytonosság

2023. december 2-án, szombat este súlyos szolgáltatáskiesés kezdődött az Autosecurit Zrt. által üzemeltetett Skyguard autóbiztonsági rendszernél. IT infrastruktúra szakértőként azonnal világos volt számomra, hogy a probléma mögött a megfelelő üzletmenet-folytonossági terv (BCDR) hiánya áll, és hogy a helyreállítási idő célérték (RTO) valamint a helyreállítási pont célérték (RPO) nyilvánvalóan nem volt megfelelően definiálva vagy implementálva.

A Skyguard súlyos kiesése nem egyszerű technikai hiba, hanem rendszerszintű probléma, amely rávilágít az IT infrastruktúra kritikus szerepére a modern szolgáltatásokban. Különösen aggasztó, hogy egy biztonsági szolgáltatásról van szó, amelynek egyrészt alapvető feladata a biztonság garantálása, másrészt az EuroOne partnereként működik, ahol szigorú követelmények vonatkoznak a szolgáltatás rendelkezésre állására.

Az ügyfélélmény: biztonságérzet elvesztése és kényelmetlenségek

A szolgáltatás leállásának valódi hatása az ügyfelek oldalán mutatkozott meg. Az alkalmazás hirtelen megszakította a hitelesítést, ami azt jelentette, hogy az autót csak a hagyományos PIN-billentyűzettel lehetett használni. Szerencsére nálam ez működött, mivel a készülék az autóban volt, és az elemét nemrég cseréltem.

"Különösen aggasztó volt, hogy amikor az autó riasztott, nem érkezett hívás a szolgáltatótól. A 24/7-es biztonsági szolgáltatás lényege éppen az lenne, hogy ilyen esetekben azonnal reagáljanak."

A helyzet hétfőn kritikussá vált, amikor az autót szervizbe kellett vinnem. A Skyguard rendszer hibája miatt nem tudtam szerviz módba helyezni a járművet a helyes PIN-kód ellenére sem. A szerviznél végül kénytelenek voltak bypass-t létrehozni a CAN gateway-re, ami 80.000 Ft + ÁFA többletköltséget eredményezett. Ez nem csupán anyagi kár, hanem megmutatta, hogy a biztonsági rendszer hibája hogyan gyűrűzhet tovább és okozhat problémákat az autó más rendszereivel kapcsolatban is.

A biztonságérzet elvesztése mellett az ügyfélszolgálat elérhetetlensége is komoly problémát jelentett. Vasárnap megkíséreltem telefonon kapcsolatba lépni velük, de minden hívás azonnal el lett utasítva. Ez teljesen elfogadhatatlan egy olyan szolgáltatás esetében, amely biztonsági funkciókat lát el, és elvárható lenne a 24/7-es elérhetőség.

Az IT szakértő diagnózisa: a probléma technikai háttere

IT szakmai tapasztalataim alapján többféle lehetséges okot azonosítottam a Skyguard rendszer összeomlása mögött:

Teljes adatközpont leállás: Ez önmagában nem magyarázza a 40+ órás kiesést. Még áramkimaradás esetén is egy diesel generátorral 4 órán belül helyreállítható lenne a szolgáltatás.
Redundancia hiánya: Egy biztonsági szolgáltatásnál alapvető követelmény lenne a földrajzilag elkülönített másodlagos adatközpont megléte.
Kibertámadás lehetősége: Utánajárva észrevettem, hogy a Skyguard infrastruktúrája AWS-alapú. Más AWS-ügyfelek nem jelentettek szolgáltatáskiesést ebben az időszakban, így valószínűbb, hogy célzott támadás vagy súlyos konfigurációs hiba történt.
Telefonrendszer összeomlása: A telefonhívások automatikus elutasítása VOIP vagy más hálózati problémára utal, ami azt jelenti, hogy a telefónia sem volt megfelelően redundáns kialakítású.

Különösen aggasztó, hogy nem csak az alkalmazás, hanem a telefonos ügyfélszolgálat is elérhetetlen volt. Ez arra utal, hogy nem volt megfelelő tartalék rendszer vagy eljárás arra az esetre, ha az elsődleges kommunikációs csatorna meghibásodik. Egy valóban professzionális biztonsági szolgáltatásnak több, egymástól független kommunikációs csatornával kellene rendelkeznie.

A szolgáltatáskiesés mérföldkövei: egy IT katasztrófa anatómiája

1. fázis: A szolgáltatás összeomlása és a kezdeti reakciók

2023. december 2. (szombat), 18:00

A szolgáltatás teljes leállása

Az alkalmazás megszakította a hitelesítést, a rendszer elérhetetlenné vált. Az autó csak PIN-billentyűzettel használható.

2023. december 2. (szombat), kb. 19:00-22:00 között

Riasztás meghibásodása

Az autó riasztott, amit a közelből hallani lehetett, de nem érkezett hívás a szolgáltatótól, ami a biztonsági protokoll súlyos hibáját jelzi.

2023. december 3. (vasárnap), 09:00-18:00

Sikertelen kapcsolatfelvételi kísérletek

Többszöri próbálkozás a szolgáltató elérésére. Minden telefonhívás azonnal elutasításra került, ügyfélszolgálat teljesen elérhetetlen.

2. fázis: A probléma eszkalációja és további következmények

2023. december 4. (hétfő), 08:30

Szerviz mód aktiválásának lehetetlensége

Az autót nem lehetett szerviz módba helyezni a helyes PIN-kód ellenére sem. A rendszer folyamatosan hibát jelzett.

2023. december 4. (hétfő), 10:00

Bypass kialakítása a szerviznél

A szerviz kénytelen volt bypass-t létrehozni a CAN gateway-re, ami jelentős többletköltséget eredményezett.

2023. december 4. (hétfő), 14:00

A szolgáltató továbbra is elérhetetlen

Immár több mint 40 órával a leállás kezdete után sem sikerült telefonon kapcsolatba lépni a szolgáltatóval. A Facebook-on 9:01-kor válaszoltak, hogy a központi számokat hívjam, de egyik sem volt elérhető a hétvége óta történő többszöri próbálkozás ellenére sem.

3. fázis: Részleges helyreállítás és értékelés

2023. december 5. (kedd)

Részleges helyreállítás

Telefonos beszélgetés során tájékoztattak, hogy a szolgáltatás csak részben működik. Az ügyfélszolgálat szerint a rendszerek fokozatosan, egymás után kerülnek visszaállításra.

2023. december 6. (szerda)

Továbbra is fennálló problémák

Az ügyfélszolgálat szerint már működik a rendszer, és ellenőrizték a PIN kódokat, de továbbra sem működik a PIN billentyűzet, és nem sikerült a Skyguard rendszert szerviz módba kapcsolni. A logokhoz sem lehet hozzáférni, és teljes homály fedi a problémák pontos okát.

RTO és RPO a gyakorlatban: a modern IT biztonság alapkövei

A Skyguard eset kitűnő példája annak, miért kritikus fontosságú az RTO (Recovery Time Objective) és az RPO (Recovery Point Objective) megfelelő meghatározása és implementálása minden szolgáltatásnál, különösen a biztonsági rendszereknél.

A 25+ éves IT infrastruktúra tapasztalataim alapján egy biztonsági szolgáltatás esetében, különösen mint az EuroOne szerződött partnere, az alábbi elvárások lennének reálisak:

RTO (helyreállítási idő célérték): maximum 4 óra. Ez azt jelenti, hogy a szolgáltatásnak legfeljebb 4 órán belül újra működőképesnek kell lennie egy katasztrófa után.
RPO (helyreállítási pont célérték): maximum 1 óra. Ez azt jelenti, hogy legfeljebb 1 órányi adatvesztés engedhető meg.

A Skyguard esetében ez a két érték sokszorosan túl lett lépve: az RTO meghaladta a 40 órát, míg az RPO értéke több napnak felelt meg, hiszen a helyreállítás után sem voltak elérhetőek alapvető ügyfél- és szerződési adatok.

Az IT infrastruktúra kritikus szerepe a modern üzleti életben nem hangsúlyozható eléggé. A megfelelő rendszerek, protokollok és biztonsági eljárások hiánya nem csak technikai problémákat, hanem valós üzleti és biztonsági kockázatokat jelent. A Skyguard esete jól mutatja, hogy még egy biztonsági szolgáltató is komoly hiányosságokkal küzdhet ezen a területen.

Napjainkban minden üzlet az IT infrastruktúrára épül. Vegyük például a bankokat és pénzügyi szolgáltatókat, amelyek 99,999% rendelkezésre állással működnek, ami kevesebb mint 5 perc éves leállási időt jelent. Az egészségügyi rendszerek, ahol egy informatikai leállás életeket veszélyeztethet, gyakran redundáns, több adatközponttal rendelkező architektúrát használnak. A repülőterek és légitársaságok esetében egy foglalási rendszer hibája percenként több százezer dolláros veszteséget okozhat és utasok ezreit érintheti.

Korábbi tapasztalatok és a tanulságok hiánya

Különösen aggasztó, hogy ez nem az első ilyen jellegű probléma volt a Skyguard történetében. Már 2015-ben, több mint 8 évvel ezelőtt is tapasztaltam hasonló leállást, amikor szintén nem működött az alkalmazás és a telefonos elérhetőség.

Emlékezetes eset volt, amikor hajnali 3 órakor felébresztettek, hogy megkérdezzék, minden rendben van-e az autómmal, mert riasztott, miközben szerver leállás volt. Ez már akkor is súlyos hiányosságot jelzett – engem kérdeztek az autómról, miközben a saját szerverük nem működött!

A tény, hogy 2015-ben és 2023-ban is hasonló jellegű problémák merültek fel, arra utal, hogy a vállalat nem tanult a korábbi hibákból, és nem fejlesztette megfelelően az IT infrastruktúráját. Ez különösen problematikus egy olyan szolgáltatónál, amely az EuroOne partnerekén működik, és amelytől elvárható lenne a folyamatos fejlesztés és a legmagasabb szintű biztonsági protokollok alkalmazása.

Egy megfelelő üzletmenet-folytonossági terv (BCDR) a következő elemekből állna:

Többrétegű redundancia: Minimum két földrajzilag elkülönített adatközpont, plusz felhőalapú tartalékrendszer
DNS A és CNAME rekordok: Lehetővé tennék a gyors átirányítást másik infrastruktúrára 1-2 órán belül
"Shadow copy" adatbázis: A munkatársak hozzáférhetnének az alapvető adatokhoz még teljes rendszerleállás esetén is
Hibatűrő alkalmazástervezés: Az alkalmazásnak képesnek kell lennie felismerni az elsődleges rendszer hibáját és automatikusan átváltani a másodlagosra
Redundáns telefonrendszer: A kommunikációs csatornáknak is redundánsnak kell lenniük
Rendszeres DR gyakorlatok: A helyreállítási terveket rendszeresen tesztelni kell

A Skyguard esetében egyértelműen látszik, hogy ezek az elemek vagy teljesen hiányoztak, vagy nem működtek megfelelően. Ez elfogadhatatlan egy olyan szolgáltatónál, amely ügyfelei biztonságáért felel, és különösen problematikus az EuroOne partnerség szempontjából.

Következtetések és ajánlások: út a biztonságos szolgáltatás felé

A Skyguard szolgáltatás 40+ órás leállása és az azt követő problémák egyértelműen mutatják, hogy sürgős változásokra van szükség a vállalat IT infrastruktúrájában és üzletmenet-folytonossági tervezésében.

Tapasztalataim szerint a vállalatok gyakran csak egy súlyos incidens után hajlandóak komolyan venni a BCDR tervezést. Emlékszem egy korábbi ügyfélre, aki csak egy jelentős rendszerleállás után fogadta el a korábban javasolt redundáns Hyper-V és Microsoft SQL megoldásokat.

A Skyguard esetében felmerül a kérdés, hogy mennyire felelnek meg az iparági szabványoknak, különösen az EuroOne követelményeinek, amelyek rendkívül szigorúak a biztonsági szolgáltatásokra vonatkozóan. A szolgáltatónak újra kell értékelnie az üzletmenet-folytonossági tervét és jelentős beruházásokat kell eszközölnie az IT infrastruktúrájába.

Az alábbi lépéseket javasolnám a hasonló esetek elkerülésére:

A kiber-biztonsági értékelés során át kell tekinteni a Single Point of Failure pontokat
Megfelelő kockázatelemzést kell végezni és dokumentálni
Implementálni kell egy többrétegű, földrajzilag elkülönített redundáns infrastruktúrát
Egyértelmű RTO és RPO célértékeket kell meghatározni és betartani
Rendszeres DR gyakorlatokat kell tartani a helyreállítási protokollok tesztelésére
Többszintű ügyfélkommunikációs tervet kell kidolgozni a szolgáltatás leállása esetére

Egy biztonsági szolgáltatásnak, különösen egy EuroOne partnernek, példát kellene mutatnia a megbízhatóság, biztonság és üzleti folytonosság területén. A Skyguard esete egyértelműen mutatja, hogy még hosszú út áll előttük ezen a területen.

Ez az eset kiváló példa arra, hogy az IT infrastruktúra és a megfelelő üzletmenet-folytonossági tervezés nem csupán technikai kérdés, hanem közvetlen hatással van az ügyfelek biztonságára, kényelmére és a vállalat hírnevére. Az IT hibák következményei messze túlmutatnak a technológián, és valós üzleti és biztonsági kockázatot jelentenek.