Plongez dans les images de 14-18 avec notre nouveau moteur de recherche iconographique GallicaPix

Pour le lancement de Gallica Studio, nous vous proposons de tester GallicaPix, un nouvel outil de recherche iconographique dans nos collections d'imprimés numérisés (livre, revue, presse) de la période 14-18.

Sa création a pour point de départ le constat que les ressources iconographiques disponibles dans les imprimés, qu'il s'agisse de photographies, de dessins, de gravures ou de cartes, restent difficilement accessibles et encore peu valorisées. En tirant partie des progrès réalisés grâce aux techniques d’intelligence artificielle et en s’appuyant sur les collections numérisées avec OCR (Optical Character Recognition : reconnaissance optique de caractères) ou OLR (Optical Layout Recognition : reconnaissance optique de la structuration des documents), il est pourtant possible de mieux identifier et exploiter cet immense réservoir d'images.

Cet outil a été développé par Jean-Philippe Moreux, expert OCR et formats éditoriaux au Département de la Conservation de la BnF, et Guillaume Chiron, chercheur au laboratoire Informatique, Image et Interaction (L3i) à l'Université de La Rochelle. Il prend la forme d'un module de recherche accessible ici qui fouille dans les collections d'images et d'imprimés de Gallica relatives à la Première Guerre Mondiale (période 1910-1920).

=> Accédez à GallicaPix

 

 

La recherche se fait par mot-clé ou selon des critères de classification (thème, concept, type d’illustration, couleur, taille, etc.). Les résultats s'affichent ensuite sous la forme d'une mosaïque d'images. A titre d'exemple, une recherche avec le mot-clé "clemenceau" donne plusieurs centaines de résultats, dont de nombreuses photographies et illustrations issues des grands quotidiens nationaux qu'une recherche traditionnelle dans les collections d'images de Gallica n'aurait pas permis d'identifiées. Celles-ci ne représentent pas nécessairement Georges Clémenceau mais toutes lui sont liées d'une manière ou d'une autre :

Exemples de résultats pour une requête "clemenceau"

 

Plusieurs critères de classification autorisent une fouille affinée dans les ressources iconographiques :

  • Thèmes : les thèmes des illustrations sont détectés à partir de leurs métadonnées bibliographiques ou du texte qui les entoure. Le champ « Thème » du formulaire propose 17 thèmes IPTC à interroger. L’exemple suivant montre une recherche portant sur la vie quotidienne à Paris durant la première guerre mondiale :

Exemples de résultats pour une requête "vie quotidienne"

 

  • Types : les types des illustrations sont détectés à l’aide des métadonnées bibliographiques quand elles sont disponibles ou par une méthode d’apprentissage profond (deep learning). Cette méthode met en œuvre un réseau de neurones artificiels entraîné sur une base de 10 000 images et 12 classes (photo, dessin, gravure, carte, partition, etc.). L’exemple suivant fournit des photographies de poilus :

Exemples d'une requête "poilus"

 

  • Contenus image : un traitement de reconnaissance visuelle (IBM Watson) est appliqué afin d’extraire les contenus présents dans les illustrations. Ce traitement permet notamment de détecter personnes, objets et couleurs dominantes des illustrations. Les champs Personne et Concept du formulaire activent ce critère de classification. Pour ce dernier champ, il faut saisir un mot-clé en anglais (soldier, airplane, gun, tank, bomb, etc.) :

Exemples de résultats pour une requête avec le concept "véhicule"

 

Une voiture volante trouvée grâce à une recherche avec le concept "vehicule"

Il ne s'agit encore que d'un prototype dont plusieurs fonctionnalités (recherche avancée, filtre, tri) et corpus n'ont pas encore été activés. Par ailleurs, certains critères de classification ne sont pas disponibles sur la totalité de la base (notamment l’indexation thématique et la reconnaissance visuelle). Il vous est proposé pour être testé : n'hésitez pas à nous faire part de vos commentaires et suggestions !

=> Accédez à GallicaPix

 

Mots-clé: 
Recherche iconographique
14-18

Commentaires

(2)

bonjour, j'ai testé - et trouvé des bizarreries :
mot clé : ROYE (qui est dans la Somme)
la recherche me donne des résultats intéressants .... mais aussi d'autres surprenants : des paquebots !
Un exemple : http://gallica.bnf.fr/ark:/12148/btv1b53014755v
Pourquoi ?
cordialement, mv

Bonjour,

Merci pour votre retour. Cet outil est un prototype et il est possible effectivement que des résultats surprenants apparaissent parfois. Nous prenons note, merci ! Nous avons procédé à une première mise à jour hier et la base iconographique est plus importante. Je vous invite à réessayer votre requête "roye", il y a bien plus de résultats. N'hésitez pas également à tester la recherche par thème et par concept.

Cordialement,

L'équipe de Gallica Studio.

Ajouter un commentaire

Billets récents