Amélioration de l'identification de l'établissement employeur dans les données du recensement de la population

L'établissement employeur fait partie des informations demandées dans le cadre du recensement de la population. Cependant, bien souvent, l'information obtenue est uniquement textuelle (pas de code Siret), ce qui gêne considérablement son exploitation.

L'enjeu de l'expérimentation est d'évaluer la possibilité d'utiliser des algorithmes de codage automatique de l'établissement employeur. Plus précisément, l'idée est d'utiliser les informations présentes dans le bulletin (qui peuvent comporter des erreurs, des inversions de champ, et qui ne sont pas normalisées au sens des nomenclatures) pour idéalement prédire le Siret, ou à défaut proposer une liste la plus restreinte possible de Siret pour décision humaine ensuite.

L'objectif est donc double : limiter la charge de reprise manuelle par les gestionnaires (codage automatique), mais aussi faire gagner du temps à ces mêmes gestionnaires quand une reprise manuelle est nécessaire.

L’expérimentation s’appuie sur les idées et les résultats du hackathon “Les champs de Sirene” (github) et poursuit les pistes qui y ont été développées.

Cette expérimentation a été menée dans le cadre de l'appel à manifestation d'intérêt pour l'intelligence artificielle dans l'administration accompagné par le Lab IA d'etalab (voir). Une application de reprise pour les gestionnaires et un service de prédiction alliant ElasticSearch et modèles d'apprentissage profond ont été développés. Codes disponibles sur le gitlab de l'Insee.