...

Données en réseau

26 octobre 2016

Certaines données peuvent être analysées sous forme de réseaux, c’est-à-dire que l’on s’intéresse aux relations entre des entités. Ainsi, des entités quelconques (personnes, organismes, objets, lieux,…) peuvent être considérées en réseau si elles sont connectées (relations, flux, interaction..). L’analyse de réseau renvoie à la théorie des graphes : les entités représentent les sommets (ou nœuds) et les relations sont les arêtes ou liens (arcs dans les graphes orientés). Les nœuds et les liens peuvent, en outre, avoir des attributs.

Les données des réseaux sociaux (Linkedin, Viadeo, Twitter, Facebook, …) sont des exemples typiques où les entités sont les individus membres du réseau et les relations symbolisent le fait qu’ils se connaissent, se font référence, échangent entre eux, sur ce réseau. D’autres données, traditionnellement analysées et présentées sous forme de tableaux de chiffres et de graphiques, peuvent également être modélisées sous la forme d’un réseau. En effet, l’analyse des données multidimensionnelle ou les statistiques descriptives classiques ne sont pas toujours les meilleures approches pour mettre en évidence la structure du domaine sous-jacent aux données alors que la représentation d’un graphe de relations peut y concourir. L’analyse de réseau fournit des outils permettant de :

- décrire le réseau au sens global, caractériser sa structure ou son organisation : densité, connexité, communautés… - décrire les individus au sein du réseau en fonction de leurs interactions avec les autres nœuds : - indicateurs de centralité tels que le degré, l’intermédiarité, le pageRank… - représenter graphiquement les réseaux

Parmi les outils libres permettant de faire de l’analyse de réseau, Gephi se distingue par son utilisation simple : il permet notamment de calculer des statistiques classiques, d’explorer et de produire des graphiques dynamiquement : on peut, par exemple, jouer sur les algorithmes de spatialisation et divers paramétrages en fonction de ce que l’on souhaite mettre en évidence et pour améliorer la lisibilité et l’interprétation de la visualisation. Le logiciel connaît en outre une forte communauté d’utilisateurs qui produisent des tutoriaux et des modules additionnels qui peuvent être facilement intégrés à la plateforme originelle.

A noter qu’il existe d’autres outils pour explorer des réseaux tels que Tulip, Cytoscape, R (librairie igraph), Linkurious, Neo4j…On donne ici un exemple d’utilisation de Gephi sur les données issues de l’enquête statistique sur les transports routiers de marchandises (TRM). Cette enquête, produite par le Service de l’observation et des statistiques (SOeS) estime le transport des véhicules utilitaires poids lourds de marchandises immatriculés en France. Pour chacun des 80 000 véhicules de l’échantillon annuel, l’enquête relève les caractéristiques des trajets de marchandises réalisés pendant une semaine de référence.

En utilisant la distance parcourue par trajet, le tonnage transporté, la commune d’origine et de destination des trajets, on peut représenter les transports routiers de marchandises en France sous forme de réseau. Pour l’année 2015 on obtient un fichier de plus de 220 000 trajets qui peut être importé dans Gephi. Les communes seront « connectées » par les transports de marchandises allant de l’une vers l’autre. Ces « relations » (ici des trajets) sont donc « orientées » et « pondérées » puisque chaque trajet est caractérisé par la distance parcourue et le tonnage transporté.

Dans le graphique ci-dessous, les communes sont représentées par un cercle dont la taille est proportionnelle au nombre de trajets dont elles sont l’origine ou la destination (les communes principales sont seules retenues pour la lisibilité du graphique). Les couleurs illustrent le résultat d’un partitionnement du graphe (via les outils d’analyse de la modularité proposés par Gephi), les nœuds du graphe sont de la même couleur s’ils sont davantage connectés entre eux qu’avec les autres nœuds du réseau. Le type de représentation, ici l’algorithme de spatialisation « Force Atlas 2 » est utilisé, permet d’analyser les liens entre les communes indépendamment de leur géographie.

Un positionnement géographique des communes est plus habituel, il sera obtenu, après ajout de leurs latitudes-longitudes, avec le module « Geo layout » et superposition approximative, pour raison de lisibilité des noms, avec un fond de carte.

Il serait également tout à fait possible d’utiliser les attributs à disposition (tels que les tonnages par exemple) pour produire le même type de visualisation mais en ciblant certains types de trajets (les tonnages importants par exemple, tel que le réseau mis en image d’accueil de cet article). Il peut être intéressant, au delà de la structure globale du réseau, de s’intéresser à un point particulier et son voisinage dans le réseau: ici la ville du Havre, par exemple, est un nœud particulièrement important du réseau des transports par route français. On utilise l’algorithme de spatialisation « Radial axis layout » pour illustrer le « sous-réseau » concerné dans la figure ci-dessous.

Le même genre de réseau local (à certains filtres près) peut être exploré de façon interactive grâce à l’export Gephi au format web : « sigmajs », il suffit de cliquer sur une ville pour visualiser le sous-réseau la concernant. Voir : ici.

On ne peut pas s’intéresser individuellement à chaque commune, il est donc utile de disposer de statistiques permettant de distinguer leur rôle joué en termes d’origine ou de destination des flux. L’analyse de réseaux fournit divers indicateurs issus de la théorie des graphes pour qualifier les noeuds du réseau. Dans la figure ci-dessous, le graphique de gauche (respectivement de droite) représente (la spatialisation utilisée est le « circular layout ») les communes apparaissant comme les destinations (respectivement les origines) principales des trajets. Le nombre de trajets ayant pour destination (resp. origine) une commune correspond au « degré entrant » (resp. « degré sortant ») de cette commune, la somme des degrés entrants et sortants forme le degré de la commune et est un indicateur de « centralité » de la commune dans le réseau, autrement dit, c’est une mesure de l’importance de ce nœud.

Un tutoriel pour effectuer ces différentes manipulations sous Gephi est disponible ici.


Robert Pastorelli, attaché de l’Insee

A propos de ce blog

Les informations qui y sont diffusées n'engagent que les contributeurs et en aucun cas les institutions dont ils dépendent.