Fermer

novembre 23, 2023

Ce que les DSI peuvent apprendre de la panne massive d’Optus

Ce que les DSI peuvent apprendre de la panne massive d’Optus



Planification des pannes inévitables

Même s’ils ne supervisent pas de vastes réseaux comme celui d’Optus, les responsables informatiques et leurs homologues exécutifs doivent planifier les pannes, les leurs ou celles de leurs fournisseurs de services, car même des pannes mineures ou localisées peuvent toujours perturber l’entreprise et ses clients.

« Il est important de revoir vos plans de continuité des activités et de vous assurer que vous disposez d’une sorte de sauvegarde, si possible, pour continuer vos activités. [business as usual] », dit Tett.

Ce plan de continuité des activités pourrait inclure des processus pour revenir aux systèmes papier, passer à une couverture cellulaire au lieu d’Internet, garantir que les dirigeants et le personnel clé disposent de téléphones à double SIM pour changer de réseau afin d’assurer la continuité des communications, ou tout ce qui est pertinent pour l’organisation.

« C’est comme avoir un manuel de vol : si vous perdez une partie importante de la technologie, vous pouvez essayer de vous assurer qu’il existe des moyens hors ligne pour continuer à fonctionner », dit-il.

Lancez la conversation sur la reprise après sinistre

Les DSI peuvent utiliser ces incidents qui ont fait la une des journaux pour susciter des conversations avec leurs responsables d’infrastructure afin de revoir leur plan de reprise après sinistre. « N’attendez pas que quelque chose se passe. Il devrait s’agir d’une approche continue et systématique pour déterminer où se situent les vulnérabilités », déclare Fredkin, qui cite le rapport de Netflix. Singe du Chaosqui crée des pannes aléatoires dans son environnement de production, en tant qu’élément clé de la stratégie du géant des médias en streaming visant à améliorer la résilience de ses systèmes complexes.

« Provoquer le chaos dans leur système leur permet d’exposer les points faibles, de voir comment les choses pourraient se dérouler, et de planifier et d’exécuter des exercices sur ce qui pourrait arriver », dit-il.

Les conversations autour de la reprise après sinistre doivent impliquer le directeur financier et le PDG pour cartographier les risques d’être hors ligne et de perte de confiance des clients, ainsi que les coûts nécessaires pour atténuer ces risques. « L’impact d’une entreprise peut différer considérablement de celui d’une autre entreprise, vous devez donc en tenir compte », explique Fredkin.

Comprendre les risques liés aux tiers

Selon Uptime, les services d’infrastructure numérique gérés, notamment les sociétés de cloud, de colocation, de télécommunications et d’hébergement, représentent aujourd’hui une proportion croissante de pannes. Les responsables informatiques doivent donc être conscients des risques liés aux fournisseurs tiers et savoir comment les gérer, explique Budde, « en particulier dans un paysage technologique où les mesures de réduction des coûts et l’externalisation sont devenues monnaie courante ».

Pour les mises à jour logicielles ou matérielles, il est essentiel d’avoir une liste des fournisseurs critiques ainsi que le calendrier et la nature des mises à jour. Les DSI doivent déterminer s’il est possible de déployer des mises à jour pour certains clients et pas pour d’autres, ou pour certaines parties de votre infrastructure et pas pour d’autres, explique Fredkin. Ils doivent également trouver « un moyen d’effectuer des tests afin que cela n’ait pas d’impact sur l’ensemble de l’environnement de production », ajoute-t-il.

« Il est crucial d’entretenir de bonnes relations avec les personnes qui fournissent le matériel et les logiciels. Savoir quand quelque chose, comme une mise à jour, arrive à l’avance, et avoir un certain contrôle sur le moment où cette mise à jour est transmise à votre organisation peut être très bénéfique », dit-il.

Plaidez en faveur de la modernisation informatique

Aussi regrettables soient-elles, les pannes qui font la une des journaux offrent souvent aux responsables informatiques l’occasion de défendre leurs propres arguments en faveur de la modernisation de l’informatique, conseille Fredkin. Bien que ce ne soit pas expressément le cas avec Optus, lorsque les systèmes sont hors ligne, cela est souvent lié à un problème technologique existant, et ces incidents peuvent contribuer à motiver l’adhésion de la direction et du conseil d’administration à la mise à jour des systèmes afin de garantir leur sécurité et leur résilience. vitesse et à grande échelle, dit-il.

« Lorsque les DSI élaborent un cas d’utilisation de modernisation, ils doivent obtenir l’adhésion des parties prenantes pour que l’entreprise puisse suivre le chemin », explique-t-il.

Les fonctions complexes et critiques peuvent prendre de deux à trois ans. Il faut donc également trouver un moyen d’ordonner et de hiérarchiser les efforts. « Pensez-y comme à un système de feux de circulation », explique Fredkin, en examinant ce qui est crucial et critique et ce qui est urgent. « Quelles sont les plus grandes lacunes du système ? Et en ce qui concerne le rafraîchissement à plus long terme, la priorité est différente, car certaines choses doivent être faites dans un ordre précis », dit-il.

« C’est cette mentalité classique en cascade, qui a encore une très grande place lorsqu’il s’agit de repenser les infrastructures critiques », ajoute-t-il.

Considérez la situation dans son ensemble

Qu’elles proviennent de vos systèmes ou soient le résultat de réseaux connectés, les pannes peuvent affecter un large éventail d’entreprises à la fois. C’est pourquoi les responsables informatiques pourraient envisager de penser au-delà des quatre murs de leur organisation, explique Budde.

« Un plan sur mesure en cas de catastrophe et de résilience doit inclure le respect des normes de l’industrie et un examen régulier des systèmes et protocoles informatiques pour garantir leur robustesse, en particulier en réponse aux tensions potentielles du réseau et aux menaces de sécurité », dit-il, ajoutant que ces efforts pourraient devoir aller plus loin. que votre organisation, en fonction de votre secteur d’activité.

« Nous aurons peut-être besoin d’une réflexion originale et commencerons à rechercher des solutions à l’échelle nationale et à l’échelle du secteur pour déterminer comment les organisations peuvent s’entraider dans ces situations », dit-il.

Oubliez les communications à vos risques et périls

Dernier point, mais non le moindre, les organisations ont besoin d’un manuel de communication complet en cas de pannes ou de perturbations, que ces pannes proviennent ou non d’elles.

« Il est essentiel d’avoir une communication claire et concise sur toute panne ou problème », explique Tett d’Enex Test Labs. Cette communication doit être amont jusqu’au PDG ainsi qu’aux clients et aux médias afin de fournir autant de clarté que possible sur la situation.

« La première chose à laquelle les organisations doivent penser est de savoir comment communiquer clairement avec leurs clients, même si ce ne sont pas eux qui causent la perturbation. Et la deuxième est que s’ils ne peuvent pas communiquer avec leurs clients en raison de pannes de réseau, ils doivent mettre en place une stratégie pour pouvoir communiquer via les médias », dit-il.

Il devrait également inclure une sorte de calendrier pour aider à gérer les attentes en matière de temps d’arrêt et de rétablissement des activités habituelles. « Que ce soit dans quelques heures ou 48 heures, soyez ouvert et transparent », explique Tett.




Source link

novembre 23, 2023