In juni 2007 vielen alledrie de redundant veronderstelde computersystemen voor het International Space Station tegelijk uit. Dit kwam doordat het elektrisch systeem per abuis zo ontworpen was, dat na kortsluiting in een signaaldraad alle computers automatisch werden uitgeschakeld.
Als oplossingen problemen worden In deze serie worden ict-projecten belicht die bedrijven en/of overheden in een lastig parket hebben gebracht. |
Wat?
Het internationale ruimtestation (ISS).
Wanneer?
Juni 2007.
Wat ging er mis?
Op woensdag 13 juni viel de stroomvoorziening van de drie centrale computers in het ISS onverwacht uit. Het luchtcontrolesysteem stopte vervolgens met functioneren. Ook konden de stuwraketten die de richting van het ruimtestation bepalen niet bediend worden. Een slecht moment, want om de space shuttle die op 10 juni gearriveerd was te kunnen ontkoppelen, waren deze stuwraketten onontbeerlijk.
Hoe kwam het?
Onderzoek door ruimtevaartorganisatie NASA heeft uitgewezen dat de uitval kwam door een aantal verroeste aansluitpennen van het apparaat dat de stroomvoorziening in de gaten houdt. Ze waren nat geworden als gevolg van condensatie doordat het ontvochtigingsapparaat slecht werkte. Door deze serie gebeurtenissen ontstond er kortsluiting in een signaaldraad.
Wat er vervolgens gebeurde, had niemand voorzien: door een ontwerpfout in de elektrische bedrading waren de centrale computers zo goed beveiligd tegen overstroom, dat de stroom naar de computers in geval van onraad werd uitgeschakeld.
Hoe is het verholpen?
In eerste instantie beschuldigden Russische functionarissen NASA ervan hun computers van slag te hebben gebracht met stroom afkomstig uit een nieuwe vleugel met zonnecellen. NASA veronderstelde dat het uitschakelen van de drie computersystemen het gevolg was van onjuiste commando’s die ontstonden als gevolg van elektrische interferentie van het apparaat dat de stroomvoorziening in de gaten houdt. Daarom ontkoppelden ze dit apparaat van twee van de drie computers. Ook werd de stabilisatiecontrole overgedragen aan de space shuttle. Door deze maatregelen kon de space shuttle zoals gepland ontkoppelen op 19 juni.
Daarna ontmantelden de Russische kosmonauten het computernetwerk en vervingen alle onderdelen van het apparaat dat de stroomvoorziening controleert. Sindsdien werkten de computers weer naar behoren, ook al wist de bemanning nog steeds niet wat de exacte oorzaak van het defect was geweest. In de weken na de crisis haalden kosmonauten alle onderdelen uit elkaar en stuitten uiteindelijk op de verroeste pennen. Op 12 augustus hadden ze al condensatie geconstateerd.
Had dat niet anders gekund?
Professor Jan Friso Groote van de Technische Universiteit Eindhoven: “In dit geval gaat het om een fout in het elektronische circuit, en niet echt om een programmeerfout. Vaak is hardware echter dubbel of driedubbel wordt uitgevoerd, terwijl de software controleert welke van de apparaten geacht worden nog goed te werken. Maar als de software niet helemaal goed geprogrammeerd wordt, kan het samenstel van redundante apparaten onbetrouwbaarder worden dan één apparaat.
Redundantie biedt vaker onvoldoende garantie. Ron Verburg, Consultant Security & Continuity Services bij Getronics PinkRoccade: “Ik ken een geval waarbij een bolbliksem het aardingsnetwerk ‘omhoog’ trok. Daardoor schakelde de interne beveiliging van alle systemen, die via de aarde met elkaar verbonden waren, de apparatuur uit. Je kunt je hier het best tegen beschermen door clusters van systemen geografisch van elkaar te scheiden. Daarnaast moet je noodstroomvoorzieningen aanleggen en je elektriciteitsnetwerk goed onderhouden.”
“Ook is het heel belangrijk om aparte energielijnen aan te leggen voor verschillende groepen systemen. Zo is het verstandig om de energietoevoer voor alles wat te maken heeft met het beheer van een gebouw, zoals airconditioning en koeling via een andere lijn van energie te voorzien dan de systemen voor communicatie, zoals mail en datalijnen. Zo voorkom je dat als één subsysteem down gaat, meteen alles down gaat. Dat is wel misgegaan in het ISS: de energietoevoer naar de computers was geïntegreerd met die van de controlesystemen, waardoor een complete verstoring kon ontstaan. En belangrijk is natuurlijk een goed ‘disaster recovery’ plan, dat regelmatig moet worden getest.”
sorry hoor … maar: [quote] Zo is het verstandig om de energietoevoer voor alles wat te maken heeft met het beheer van een gebouw, zoals airconditioning en koeling via een andere lijn van energie te voorzien dan de systemen voor communicatie, zoals mail en datalijnen.[/quote]
hoe lang denk je dat mail blijft werken als de airco niet meer werkt … duidelijk iemand die zijn informatie van iemand anders heeft en er zelf niet over nadenkt voor hij het zegt.