Citat:
Ursprungligen postat av
XX-Ambar
Avund pga att dom är så bra på det dom gör?
Tja, hörde ett rykte om ett stort haveri som Atea låg bakom. De driftade ett system som några andra konsultbolag satt upp som ett clustersystem med hög redundans mm. Systemet råkade ut för haveri i lagringsenheterna (en mjukvarubugg i Windows som skrev sönder lagringen). Backuperna som Atea regelbundet tagit av systemet sparades i samma lagringsenheter..
Enligt en annan uppgift så gjorde buggen att diskarna började gå sönder redan i juni månad, men pga semestrar och annat så byttes inte de felade diskarna ut förrän flera diskar gått sönder och hela lagringsenheten packade ihop.
De fel som Atea tydligen gjort är:
- Backuper har inte sparats på band sen 2015
- Ingen driftövervakning av hårdvarufel i lagringsenheterna. Övervakningen skedde bara på operativsystem/applikationsnivå.
- Långsam åtgärd. Man fick larm från verksamheten om att det pep från lagringsenheterna under juni månad. Enligt kontrakt skulle åtgärd skett inom 24 timmar. Det pep fortfarande i september.
Nu är inte analysen helt klar, men det verkar också som de andra konsultbolagen gjort en del fel vid specifieringen av systemet. Bland annat för få spare-diskar i lagringsenheterna (en spare-disk ersätter en felaktig disk genom att man kopierar över data med raid-felrättning). Man verkar ha använt raid5 istället för raid6 och bara en spare-disk till raid5 (använder man inte raid6 bör man ha minst två spare-diskar eftersom diskfel ofta uppträder på flera diskar nästan samtidigt)