Plongez dans les images de 14-18 avec notre nouveau moteur de recherche iconographique GallicaPix

Pour le lancement de Gallica Studio, nous vous proposons de tester GallicaPix, un nouvel outil de recherche iconographique dans nos collections d'imprimés numérisés (livre, revue, presse) de la période 14-18.

Sa création a pour point de départ le constat que les ressources iconographiques disponibles dans les imprimés, qu'il s'agisse de photographies, de dessins, de gravures ou de cartes, restent difficilement accessibles et encore peu valorisées. En tirant partie des progrès réalisés grâce aux techniques d’intelligence artificielle et en s’appuyant sur les collections numérisées avec OCR (Optical Character Recognition : reconnaissance optique de caractères) ou OLR (Optical Layout Recognition : reconnaissance optique de la structuration des documents), il est pourtant possible de mieux identifier et exploiter cet immense réservoir d'images.

Cet outil a été développé par Jean-Philippe Moreux, expert OCR et formats éditoriaux au Département de la Conservation de la BnF, et Guillaume Chiron, chercheur au laboratoire Informatique, Image et Interaction (L3i) à l'université de La Rochelle. Il prend la forme d'un module de recherche qui fouille dans les collections d'images et d'imprimés de Gallica relatives à la Première Guerre Mondiale (période 1910-1920).

Accédez à GallicaPix

 

La recherche se fait selon plusieurs modalités :

  • par mot-clé (cherché dans les métadonnées ou dans l'OCR, s'il existe),
  • selon des critères bibliographiques (collections visées, titre du document, date, thème, etc.),
  • selon des critères visuels (concept contenu dans l'image, type d’illustration, couleur, taille, etc.).

Les résultats s'affichent ensuite sous la forme d'une mosaïque d'images. A titre d'exemple, une recherche avec le mot-clé "clemenceau" donne plusieurs centaines de résultats, dont de nombreuses photographies et illustrations issues des grands quotidiens nationaux qu'une recherche traditionnelle dans les collections d'images de Gallica n'aurait pas permis d'identifier. Celles-ci ne représentent pas nécessairement Georges Clémenceau mais toutes lui sont liées d'une manière ou d'une autre :

Exemples de résultats pour une requête "clemenceau"

 

Plusieurs critères de classification autorisent une fouille affinée dans les ressources iconographiques :

  • Thèmes : les thèmes des illustrations sont détectés à partir de leurs métadonnées bibliographiques. Le champ « Thème » du formulaire propose 17 thèmes IPTC à interroger. L’exemple suivant montre une recherche portant sur la vie quotidienne à Paris durant la première guerre mondiale :