Extraction de tableaux de documents scannés

Le département Répertoires, Infrastructures et Statistiques Structurelles (Driss) de l’Insee exploite régulièrement les comptes sociaux des entreprises, des documents qui lui parviennent souvent sous la forme d'images scannées. En particulier, les informations contenues au sein d'un tableau spécifique qui figure en général dans les comptes sociaux sont utilisées à des fins statistiques. Un temps non négligeable est consacré par plusieurs agents à la lecture et à la copie de ce tableau.

De manière plus générale, l'extraction de tableaux de documents scannés est une tâche sans grande valeur ajoutée qu'on retrouve à de nombreux endroits, à l'Insee, dans la sphère publique en général et même ailleurs. Cette expérimentation a pour but de développer un module automatique d'extraction de tableaux de documents scannés, dans un premier temps appliqué au cas d'usage spécifique du Driss, en s'appuyant sur des modèles de deep learning (et notamment sur ce travail).