...

Classifier les données de caisse pour calculer les indices conjoncturels d'activité

Les données de caisse reçues à l'Insee permettent de connaitre, pour chaque jour et chaque point de vente, les quantités de produit vendues, ainsi que le prix de vente du produit. Actuellement, ces données sont principalement utilisées pour mesurer l'inflation, et contribuer à la construction de l'indice des prix à la consommation.

Ces données pourraient cependant être utilisées plus largement, et notamment contribuer à affiner la connaissance des chiffres d'affaires (ICA) des grandes enseignes. Pour cela, un pré requis important existe cependant : être capable de classifier les produits vendus - connus par leur code barre ainsi que leur descriptif - en fonction de la nomenclature utilisé lors de la construction des ICA. Et cette étape n'est pas triviale, puisque ces produits sont actuellement classifiés selon la nomenclature de l'IPC, qui n'est pas bijective avec celle de l'ICA.

Pour cette raison, l'expérimentation vise à utiliser des techniques de data science afin de classifier automatiquement les données de caisse dans la nomenclature d'activité utilisée pour construire les indicateurs conjoncturels d'activité ou d'autres nomenclatures à partir d'apprentissage supervisé.