Participez à notre campagne de correction de documents Gallica

Un exemple d'illustrations de l'Excelsior

Vous voulez contribuer à améliorer les services numériques de Gallica ? Participez à notre campagne de correction de documents ici.

 

Présentation

 

Gallica offre des fonctionnalités liées aux documents de plus en plus variées, Gallicarte pour géolocaliser des documents ou encore Gallicapix un outil de recherche iconographique. Ces services demandent des traitements spécifiques des documents et de leurs métadonnées. 

Dans le cas de cette campagne, les documents de presse que vous pourrez corriger ont été traités préalablement avec un logiciel de reconnaissance optique de caractère (ou OCR, Optical Character Recognition). Ainsi, lorsqu’une page imprimée est analysée, ses paragraphes de texte peuvent être identifiés et manipulés. Cependant, ces traitements automatiques ne sont pas à l’abri d’une erreur, et c’est pourquoi nous lançons cette campagne de correction collaborative de l’OCR à l'aide de la plateforme ORCA.

L’objectif de cette campagne est de pouvoir utiliser des légendes d’illustrations de presse pour d’une part l’indexation de ces documents dans Gallica et d’autre part l’indexation des illustrations dans GallicaPix.

Un exemple d'illustrations de l’Excelsior issues de GallicaPix

Un exemple d'illustrations de l’Excelsior issues de GallicaPix

Les documents à corriger proviennent de l'Excelsior, un quotidien fondé en 1910 par Pierre Lafitte. L’édition du titre cesse en 1940. Le journal a pour approche le traitement de l’information par l’image et par conséquent, il a produit de nombreux reportages illustrés. La campagne vise donc à améliorer le texte des légendes des illustrations de 10 407 fascicules, soit environ 200 000 illustrations.

Un exemple d’illustration et de sa légende

Pour vous inscrire à cette campagne sur Gallicastudio, remplissez ce formulaire.  Les inscriptions seront ouvertes jusqu'au 4 octobre. Nous vous contacterons dans un second temps avec les modalités de connexion à la plateforme de correction ORCA. Pour toute question sur votre inscription ou concernant l’utilisation de la plateforme, écrivez-nous à gallica@bnf.fr.

 

Utiliser la plateforme ORCA

Allez sur la plateforme ORCA à l’aide de cette adresse : https://orca-test.content-conversion.com:10443/. Puis connectez-vous avec l’email que vous avez utilisé lors de votre inscription sur Gallica Studio et le mot de passe communiqué ultérieurement par la BnF.

 

A la première connexion, la plateforme vous demandera de choisir un nouveau mot de passe personnel. Conservez ce nouveau mot de passe strictement confidentiel (vous aurez la possibilité de le modifier par la suite grâce à l’option Change Password du menu affiché en regard de votre email, voir capture d'écran ci-dessous).


Pour lancer l’éditeur de correction ORCA, cliquez sur l’icône Play.


Un fois le projet Captions sélectionné, un extrait d’un document est présenté. Sur la partie gauche se trouve l’image numérisée du document. C’est en tenant compte de ce que vous voyez ici que vous effectuerez vos corrections : il est donc primordial qu’elle soit lisible. La partie droite est une zone de saisie où vous pourrez corriger le texte produit par l’OCR.

 

 

 

Si l’image de la zone de texte est mal positionnée, rendant la lecture difficile, différentes options sont possibles.

  • La première solution (icônes 1) consiste à ajuster votre vision de l’image. Il s’agira tout simplement de zoomer ou dézoomer l’aperçu à l’aide des deux premiers boutons. 

  • Le troisième bouton permet de voir autour de la zone de texte, et notamment l’illustration, afin d’obtenir une meilleure compréhension du contexte. 

  • Une dernière possibilité (icône 1.2) est de basculer votre aperçu à l’horizontale, au-dessus de votre espace de correction (un choix utile dans notre exemple).  

La partie droite est donc l’espace de correction, c’est ici que vous entrez manuellement le texte lu dans l’aperçu de l’image d’origine. Les icônes (3) sont à utiliser uniquement dans les cas où le sens d’impression du texte ne serait pas de gauche à droite et du haut vers le bas, ce qui ne surviendra pas pour les documents de la campagne. 

Une fois que vous avez corrigé le texte, ou s’il ne nécessite pas de correction, soumettez-le avec le bouton Submit

Si vous n’êtes pas en mesure de corriger le texte, indiquez pour quelle raison en cliquant sur le bouton Your flags. Vous aurez à votre disposition une liste de cas pour décrire le problème rencontré.

Les significations de ces cas sont les suivantes ;

  • Illegible : le texte est illisible

  • Stamp : le texte est en fait celui d’un tampon de bibliothèque

  • Noise : il n’y a pas de texte et l’extrait présente des taches, une zone non imprimée, etc.

  • TransitionSep : il n’y a pas de texte et l’extrait présente un filet de séparation entre paragraphe, un ornement imprimé, etc.

En dernier recours, si vous doutez du problème ou si vous ne souhaitez pas corriger l’extrait en cours, utilisez le bouton Skip. La légende sera présentée ultérieurement à la correction.


Lorsque vous estimez avoir assez corrigé, utilisez le bouton Stop correction dans la partie supérieure droite de votre écran pour terminer votre session ORCA !

Mots-clé: 
campagne
correction
OCR

Ajouter un commentaire

Billets récents