Aller au contenu principal

Un article tagués avec « internet »

Voir tous les tags

La Grande Panne Internet du 12 Juin 2025 - Une Leçon de Fragilité Numérique

· 4 minutes de lecture
Joseph HE
Ingénieur Logiciel

Le jeudi 12 juin 2025 restera gravé dans les annales comme une journée où l'internet a montré ses failles. Une panne généralisée a frappé un large éventail de services et de sites web populaires, révélant la vulnérabilité intrinsèque d'un écosystème numérique de plus en plus dépendant d'un nombre restreint de géants de l'hébergement.

La fragilité de notre écosystème numérique

Cette panne a brutalement mis en lumière à quel point notre accès quotidien à internet repose sur une poignée d'acteurs majeurs. Comme l'a souligné Tim Marcin de Mashable, cet incident "peint un tableau de la fragilité de notre écosystème internet lorsque des rouages essentiels fonctionnent mal." Il est clair que de nombreux services couramment utilisés dépendent d'un petit nombre de grands fournisseurs, et un dysfonctionnement chez l'un d'eux peut avoir des répercussions en cascade considérables.

Les noms qui reviennent sont bien connus : AWS (Amazon Web Services), Google Cloud, Azure (Microsoft) et Cloudflare. La panne du 12 juin a principalement impliqué Google Cloud et Cloudflare, montrant une interdépendance qui a surpris même les experts de l'industrie.

Google Cloud au cœur de la tempête

Au centre de cette interruption se trouvait un problème avec Google Cloud Platform (GCP). Google a rapidement reconnu des "problèmes avec son système de gestion d'API." Thomas Kurian, le PDG de Google Cloud, a présenté ses excuses, confirmant un rétablissement complet des services.

Ce qui est ressorti de cette situation, c'est une dépendance insoupçonnée de Cloudflare vis-à-vis de Google Cloud. Longtemps perçu comme ayant une infrastructure entièrement indépendante, Cloudflare a révélé que certains de ses services clés s'appuyaient sur GCP, notamment pour une "solution de stockage à froid à long terme" liée à son service Worker KV. Initialement, Cloudflare a attribué la faute à Google Cloud, affirmant qu'il s'agissait d'une "panne de Google Cloud" affectant un nombre limité de ses services.

L'impact en cascade de Cloudflare Worker KV

Le service Cloudflare Worker KV (Key-Value) s'est avéré être le talon d'Achille de Cloudflare. Décrit comme un "magasin clé-valeur" et un "cœur pour des tonnes d'autres choses", sa défaillance a entraîné une cascade d'incidents.

La panne a duré 2 heures et 28 minutes, impactant mondialement tous les clients de Cloudflare utilisant les services affectés, y compris Worker KV, Warp, Access Gateway, Images, Stream, Workers AI, et même le tableau de bord Cloudflare lui-même. Cette situation a clairement démontré que Worker KV est une "dépendance critique pour de nombreux produits Cloudflare et est utilisé pour la configuration, l'authentification et la livraison d'actifs."

Transparence et responsabilité : l'exemple de Cloudflare

Un aspect remarquable de cet incident a été la réaction de Cloudflare en termes de transparence et de prise de responsabilité. Bien que la cause première ait été attribuée à Google Cloud, Cloudflare a publié un rapport d'incident d'une rare franchise. Dane, le PDG de Cloudflare, a déclaré : "Nous avons laissé tomber nos clients chez Cloudflare aujourd'hui. [...] C'était un échec de notre part, et bien que la cause ou le déclencheur immédiat de cette panne ait été une défaillance d'un fournisseur tiers, nous sommes en fin de compte responsables de nos dépendances choisies et de la manière dont nous choisissons d'architecturer autour d'elles."

Cette attitude a été largement saluée comme un modèle d'entreprise, montrant une "volonté de partager les taux d'erreur absurdement élevés" et l'absence de "blâme envers Google" dans leur rapport, prouvant un engagement fort envers la transparence.

Leçons apprises et atténuation future

Cloudflare a rapidement identifié et commencé à travailler sur des solutions. Le rapport d'incident détaille une chronologie rapide de la détection et de la classification de l'incident au plus haut niveau de gravité (P0). L'entreprise prévoit de renforcer la résilience de ses services en réduisant les dépendances singulières, notamment en migrant le stockage à froid de Worker KV vers R2, leur alternative à S3, pour éviter de dépendre d'infrastructures de stockage tierces.

Ils travaillent également à "implémenter des outils qui leur permettent de réactiver progressivement les espaces de noms pendant les incidents d'infrastructure de stockage," assurant que les services critiques puissent fonctionner même si l'ensemble du service KV n'est pas encore complètement rétabli.

La panne du 12 juin 2025 a servi de rappel brutal de l'interdépendance croissante du web et de l'importance cruciale de la redondance et de la diversification des dépendances, même pour les géants de l'hébergement. Elle nous pousse à réévaluer la résilience de nos architectures numériques et à renforcer la collaboration entre les acteurs pour un internet plus robuste.

source:https://mashable.com/article/cause-internet-outage-google-cloud-what-happened-june-12