Participez à notre campagne de correction de documents Gallica

Un exemple d'illustrations de l'Excelsior

Vous voulez contribuer à améliorer les services numériques de Gallica ? Participez à notre campagne de correction de documents ici.

Mise à jour du 5 novembre : voir aussi le guide de correction en fin d'article !


Présentation

Gallica offre des fonctionnalités liées aux documents de plus en plus variées, Gallicarte pour géolocaliser des documents ou encore Gallicapix un outil de recherche iconographique. Ces services demandent des traitements spécifiques des documents et de leurs métadonnées. 

Dans le cas de cette campagne, les documents de presse que vous pourrez corriger ont été traités préalablement avec un logiciel de reconnaissance optique de caractère (ou OCR, Optical Character Recognition). Ainsi, lorsqu’une page imprimée est analysée, ses paragraphes de texte peuvent être identifiés et manipulés. Cependant, ces traitements automatiques ne sont pas à l’abri d’une erreur, et c’est pourquoi nous lançons cette campagne de correction collaborative de l’OCR à l'aide de la plateforme ORCA.

L’objectif de cette campagne est de pouvoir utiliser des légendes d’illustrations de presse pour d’une part l’indexation de ces documents dans Gallica et d’autre part l’indexation des illustrations dans GallicaPix.

Un exemple d'illustrations de l’Excelsior issues de GallicaPix

Un exemple d'illustrations de l’Excelsior issues de GallicaPix

Les documents à corriger proviennent de l'Excelsior, un quotidien fondé en 1910 par Pierre Lafitte. L’édition du titre cesse en 1940. Le journal a pour approche le traitement de l’information par l’image et par conséquent, il a produit de nombreux reportages illustrés. La campagne vise donc à améliorer le texte des légendes des illustrations de 10 407 fascicules, soit environ 200 000 illustrations.

Un exemple d’illustration et de sa légende

Pour vous inscrire à cette campagne sur Gallicastudio, remplissez ce formulaire.  Les inscriptions seront ouvertes jusqu'au 4 octobre. Nous vous contacterons dans un second temps avec les modalités de connexion à la plateforme de correction ORCA. Pour toute question sur votre inscription ou concernant l’utilisation de la plateforme, écrivez-nous à gallica@bnf.fr.

 

Utiliser la plateforme ORCA

Allez sur la plateforme ORCA à l’aide de cette adresse : https://orca-test.content-conversion.com:10443/. Puis connectez-vous avec l’email que vous avez utilisé lors de votre inscription sur Gallica Studio et le mot de passe communiqué ultérieurement par la BnF.

 

A la première connexion, la plateforme vous demandera de choisir un nouveau mot de passe personnel. Conservez ce nouveau mot de passe strictement confidentiel (vous aurez la possibilité de le modifier par la suite grâce à l’option Change Password du menu affiché en regard de votre email, voir capture d'écran ci-dessous).


Pour lancer l’éditeur de correction ORCA, cliquez sur l’icône Play.


Un fois le projet Captions sélectionné, un extrait d’un document est présenté. Sur la partie gauche se trouve l’image numérisée du document. C’est en tenant compte de ce que vous voyez ici que vous effectuerez vos corrections : il est donc primordial qu’elle soit lisible. La partie droite est une zone de saisie où vous pourrez corriger le texte produit par l’OCR.

 

Si l’image de la zone de texte est mal positionnée, rendant la lecture difficile, différentes options sont possibles.

  • La première solution (icônes 1) consiste à ajuster votre vision de l’image. Il s’agira tout simplement de zoomer ou dézoomer l’aperçu à l’aide des deux premiers boutons. 

  • Le troisième bouton permet de voir autour de la zone de texte, et notamment l’illustration, afin d’obtenir une meilleure compréhension du contexte. 

  • Une dernière possibilité (icône 1.2) est de basculer votre aperçu à l’horizontale, au-dessus de votre espace de correction (un choix utile dans notre exemple).  

La partie droite est donc l’espace de correction, c’est ici que vous entrez manuellement le texte lu dans l’aperçu de l’image d’origine. Les icônes (3) sont à utiliser uniquement dans les cas où le sens d’impression du texte ne serait pas de gauche à droite et du haut vers le bas, ce qui ne surviendra pas pour les documents de la campagne. 

Une fois que vous avez corrigé le texte, ou s’il ne nécessite pas de correction, soumettez-le avec le bouton Submit. Un nouvel extrait vous est ensuite proposé, choisi aléatoirement par la plateforme ; il ne suit donc pas l'extrait que vous venez de corriger.

Si vous n’êtes pas en mesure de corriger le texte, indiquez pour quelle raison en cliquant sur le bouton Your flags (voir capture d'écran ci-avant, en haut à droite). Vous aurez à votre disposition une liste de cas pour décrire le problème rencontré. Les significations de ces cas sont les suivantes ;

  • Illegible : le texte est illisible

  • Stamp : le texte est en fait celui d’un tampon de bibliothèque

  • Noise : il n’y a pas de texte et l’extrait présente des taches, une zone non imprimée, etc.

  • TransitionSep : il n’y a pas de texte et l’extrait présente un filet de séparation entre paragraphe, un ornement imprimé, etc.

En dernier recours, si vous doutez du problème ou si vous ne souhaitez pas corriger l’extrait en cours, utilisez le bouton Skip. La légende sera présentée ultérieurement à la correction.


Lorsque vous estimez avoir assez corrigé, utilisez le bouton Stop correction dans la partie supérieure droite de votre écran pour terminer votre session ORCA !


Guide de correction

 

Abréviation

Une abréviation n’a pas à être modifiée ou modernisée. 
Exemple : « Phot. » demeure à l’identique, ne devient pas « Photo ».

Capitale accentuée

De préférence, la saisir.
Exemple : E est à écrire É, et A, À.

Coquille

L’objectif principal d’ORCA est de corriger les erreurs de transcription de l’OCR.
Dans le cas où le texte imprimé présente des coquilles d’imprimerie manifestes, il est recommandé de les corriger également. 

Exposant

ORCA ne permet pas de représenter un exposant, s’il figure dans l’imprimé. Le saisir comme un caractère simple.
Exemple : pour er, inscrire er. Pour me, inscrire me.

Gras

ORCA ne permet pas d’indiquer l’emploi du gras, s’il apparaît dans l’imprimé. 

Guillemets français, ou chevrons

Conserver si possible les guillemets français.
Mac OS X : Alt 7 et Alt-Maj 7 donnent les guillemets gauche et droit « et »
Windows : Alt 0171 et Alt 0187 donnent les guillemets gauche et droit « et »

Indice

Le saisir comme un caractère simple (voir Exposant).

Italique

ORCA ne permet pas de reproduire l’italique, s’il est utilisé dans l’imprimé. 

Justification à droite

Ne pas tenter de reproduire la justification à droite avec des caractères espaces.

Justification centrée

Ne pas tenter de reproduire la justification centrée avec des espaces ou tabulations.

LE DEPART DE L’IMPERATRICE EUGENIE LE DEPART DE M. ASQUITH
Douvres vient d’assister au départ, pour le continent, de deux personnalités notoires. L’impératrice Eugénie et M. Asquith se sont embarqués dans ce port, l’une pour se rendre en Belgi- ¶
que et l’autre pour gagner Toulon et l’Italie.

Mise en page (erreur de reconnaissance de la)

ORCA ne permet pas de corriger les défauts de reconnaissance de la mise en page commis par l’OCR (ligne isolée, paragraphe scindé abusivement, etc.). 
Certaines lignes sont de fait parfois totalement erronées, les supprimer. Ici la première ligne :

Ordre de lecture

Il convient de respecter l'ordre d'impression du texte sur les lignes, même si cela conduit à des incohérences de lecture. Faute de quoi il sera difficile de réinsérer les corrections dans les fichiers OCR originaux. Par conséquent, il ne faut pas tenter de rétablir le texte dans son ordre de lecture logique, en inversant des portions de texte, ou en insérant des espaces, tabulations ou retours à la ligne.

Ne pas reconstruire la phrase en réagençant la seconde ligne :

1. M. POINCARE SORT DE CHEZ LUI. — 2. M. BRIAND RENTRE CHEZ LUI, OU M. POINCARE SE TROUVE DEJA POUR LUI PROPOSER UN PORTEFEUILLE. — 3. POINCARE CHEZ M. BRIAND. — 4. M.POINCARE ¶
(Plaque Agfa) RENTRE CHEZ LUI. (Central-Excelsior-Photos.)

Petites capitales

Les saisir comme des capitales. 

Tirets

Les traits d’union en fin de ligne (caractère de césure) doivent être conservés. Ne pas recoller les deux parties du mot.

Les traits d’union transcrits par l’OCR en caractère = sont à corriger.
Les tirets longs transcrits par l’OCR en caractère - peuvent être rétablis.
Mac OS X : Alt –
Windows : Ctrl –


 

Mots-clé: 
campagne
correction
OCR

Ajouter un commentaire

Billets récents