#17 Incident BGP chez Facebook & OVH
En octobre dernier, Facebook était indisponible plusieurs heures durant. Le même mois, l’hébergeur français OVH a également subit un incident.
Leur point commun ? BGP. Le Border Gateway Protocol.
Dans cet épisode #17 de Post Mortem, Stéphane Bortzmeyer nous fait découvrir les coulisses d’internet. Là où le « cloud », le « serverless » se fracasse à la réalité de l’internet : des machines bien physique qui essaient de communiquer entre elles.
Mais ces machines sont distribuées à la surface du globe et gérées par des acteurs différents... Sans leadership unique de l’internet, comment se mettre d’accord pour que ces serveurs puissent se parler et se comprendre ?
Après avoir dressé le tableau des concepts clés de réseaux qui nous aiderons à suivre cette aventure internet (DNS, BGP) [1’ 50’’], Stéphane nous fait revivre les incidents Facebook [14’] et OVH [42’10’’] d’octobre 2021 en prenant soin de décortiquer chaque concept pour en tirer des enseignements généralisables [44’].
Stéphane Bortzmeyer est un ingénieur réseau (membre IETF, à l’origine de plusieurs RFC – les standards d’internet) et travaille aujourd’hui à l’AFNIC, le registre des noms de domaine en .fr. Il est également auteur, tiens un blog et vous pourrez le trouver sur twitter sous handle @bortzmeyer
Bibliographie
Sujets évoqués lors de l'épisode
Évènement de Carrington – La tempête solaire de 1859
https://fr.wikipedia.org/wiki/Tempête_solaire_de_1859 Les rayonnements cosmiques et leurs effets sur les composants électroniques https://fr.wikipedia.org/wiki/Rayonnement_cosmique#Effet_sur_l’électronique Panne des numéros d’urgence : Quelle responsabilité de l'opérateur Orange ? https://www.vie-publique.fr/en-bref/280875-panne-des-numeros-durgence-quelle-responsabilite-dorange Les articles de RIPE Labs https://labs.ripe.net/ L'accès aux informations du RIS (Routing Information Service) https://stat.ripe.net/ui2013/ (attention, il faut une machine costaud, c'est plein de Javascript) Une liste de "looking glasses" http://traceroute.org/#Looking%20Glass Dont l’article sur le NTP (Network Time Protocol) https://labs.ripe.net/author/christer-weinigel/implementing-network-time-security-at-the-hardware-level/ La liste de distribution FRnog https://www.frnog.org/?page=mailing&lang=en Fantasia - L'apprenti sorcier, la scéne du balais,
Post Mortem
In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced.
In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation.
Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents.
- Nombre d'épisodes: 26
- Dernier épisode: 2024-02-04
- Technologies