Thèse de doctorat en Informatique

Monsieur Kévin HOARAU
Jeudi 29 septembre 2022
à 11 heures

Salle : S11.1 du Parc Technologique Universitaire 

Salle virtuelle : 
https://univ-reunion-fr.zoom.us/j/83711307380?pwd=bXFvM0hzd2daNlVsTW12M3NtV3pMdz09

ID de réunion : 837 1130 7380
Code secret : 375763

Monsieur Kévin HOARAU soutiendra publiquement ses travaux de thèse intitulés " Apprentissage automatique pour la détection d'anomalies dans les graphes issus des données réseau " dirigés par Messieurs Etienne PAYET et Dali KAAFAR.

Composition du jury proposé :

M. Etienne PAYET, Université de La Réunion,  Directeur de thèse
Mme Géraldine TEXIER, IMT Atlantique, Rapporteure
M. Prométhée SPATHIS, Sorbonne Université - LIP6, Rapporteur
M. Pierre-Ugo TOURNOUX, Université de La Réunion, Co-directeur de thèse
M. Tahiry  RAZAFINDRALAMBO, Université de La Réunion, Co-directeur de thèse
M. Vania CONAN, Thales Group, Examinateur
M. Emmanuel LOCHIN, ENAC, Examinateur 

Mots-clés : 

Apprentissage automatique,Détection d’anomalie,Border Gateway Protocol,Graph Neural Networks

Résumé :

L'analyse des réseaux, de leurs protocoles et applications est impactée par l'évolution rapide des méthodes d'apprentissage automatique. Par ailleurs, bien que les données de ce domaine d'application soient intrinsèquement liées aux représentations sous forme de graphe, ce sont des représentations tabulaires qui sont généralement utilisées par les techniques d'apprentissage automatique ce qui, par conséquent, ne permet pas de représenter toute la complexité de ces données. Cette thèse s'intéresse à l'exploitation des graphes des données réseau à l'aide de techniques d'apprentissage automatique. Il est notamment proposé d'intégrer et d'évaluer les avancées récentes dans le domaine des Graph Neural Networks (GNN). Le cadre applicatif retenu est celui de la détection d'anomalies dans le Border Gateway Protocol (BGP), protocole qui génère des graphes massifs et complexes dans lesquels les anomalies sont difficilement décelables. Ce protocole constitue l'épine dorsale de l'Internet ce qui justifie que ses anomalies aient été largement étudiées par la communauté, que ce soit via des règles expertes ou des méthodes d'apprentissage automatique classiques. Un travail préalable identifie que contrairement aux principaux domaines d'application de l'apprentissage automatique, il n'y a pas de jeux de données de référence pour l'étude des anomalies BGP. En outre, la construction de ces derniers apparaît pénible et constitue un frein à la recherche dans ce domaine. Ainsi, BML, un outil pour la construction de jeu de données BGP est proposé. La première contribution de cette thèse met en exergue le fait que l'exploitation d'attributs extraits d'un graphe BGP permet d'y détecter une anomalie avec des performances conformes à l'état de l'art. C'est le cas pour les anomalies de grande échelle (accuracy de 88%) mais il permet également d'améliorer significativement les performances sur les anomalies de petite échelle (+18% d'accuracy). Dans une seconde contribution, la composante temporelle est intégrée par l'utilisation d'un réseau de neurones récurrent (RNN). À partir d'une séquence de graphes BGP, une série temporelle d'attributs est extraite puis consommée par ce modèle. Cependant, il apparaît que la perte d'information induite par l'extraction d'attributs du graphe BGP nuit aux performances. Dans une dernière contribution, ce problème est contourné par l'utilisation d'un GNN qui exploite directement les graphes sans étape préalable d'extraction d'attributs. Par construction, ce modèle offre également une granularité fine qui a permis de détecter une anomalie au niveau d'un AS avec une accuracy de 96% sur des évènements de grande échelle. À notre connaissance, il s'agit du premier modèle basé sur un GNN pour la détection d'anomalies BGP. Ces travaux ont mis en évidence la pertinence des représentations sous forme de graphe pour l'analyse des données issues de BGP. Néanmoins, les GNN ouvrent davantage de perspectives que celles étudiées dans cette thèse. Notamment, l'identification du nœud à l'origine d'une attaque ou encore la prédiction de l'impact d'une anomalie.