...

Comparaison des méthodes d'appariement et apport du machine learning

Le programme Resil vise à construire un système de répertoires d'individus, de ménages et de locaux d'habitation, durable et évolutif, mis à jour à partir de sources administratives diverses. Il nécessite l'agrégation de plusieurs sources de données sans identifiant direct commun. Le but de l'expérimentation est de tester et de comparer différentes méthodes d'appariements afin de dégager des recommandations pour les travaux nécessaires à la construction des répertoires. Celles-ci seront fondées sur des critères de performance (qualité de l'appariement) mais aussi sur des considérations opérationnelles (facilité de déploiement, temps de calcul, etc.). L'objectif est notamment d'évaluer l'apport et les contraintes des méthodes probabilistes ainsi que du machine learning dans les tâches d'appariement. Ce travail s'accompagnera d'une réflexion sur la normalisation préalable des données et l'évaluation des résultats d'un appariement.