...

Codification automatique de l'activité des associations

L’enquête Associations repose sur un échantillonnage stratifié sur le domaine d’activité. Cependant, cette information n’est pas directement disponible dans une des deux sources de constitution de l’échantillon, Sirene et le Répertoire National des Associations (RNA).

Il s'agit ainsi de développer un modèle d'apprentissage supervisé utilisant l'objet social du RNA ainsi qu'une poignée de variables annexes pour prédire le domaine d'activité parmi 10 catégories. L'objet social est une description textuelle en quelques lignes, ainsi certains algorithmes de traitement du langage naturel à l’état de l’art pourraient s’avérer particulièrement performants sur cette tâche.