Sur les chemins de la GED : Transformer un imprimé en fichier texte/word

Ne perdez plus votre temps à ressaisir un courrier dactylographié ou un article de presse ! Votre scanner et un logiciel de reconnaissance de caractères se chargeront de cette corvée.

1- Numérisez le document

PNG - 217.3 ko

Les logiciels de reconnaissance de caractères transforment les textes imprimés en fichiers numériques, que vous pouvez ensuite modifier à l’aide d’un traitement de texte. Téléchargez et installez FreeOCR http://www.FreeOCR.net/. Ce programme gratuit permet de numériser votre document de concert avec votre scanner. Si vous maîtrisez l’application fournie avec votre périphérique, continuez à l’utiliser en amont de FreeOCR. Ce dernier sait, en effet, aussi traiter des documents préalablement numérisés et enregistrés au format PDF. Pour obtenir un résultat optimal, réglez la résolution sur 200 ppp et ajustez la luminosité et le contraste.

2- Lancez la reconnaissance

PNG - 335.2 ko

Le document numérisé s’affiche dans la fenêtre de FreeOCR (pour ouvrir un fichier PDF, déroulez le menu File, Load PDF). Délimitez à l’aide de la souris les zones que le module de reconnaissance de caractères devra analyser. S’il s’agit d’un document à la mise en page complexe (article de magazine ou document publicitaire), procédez bloc par bloc. Sélectionnez un premier paragraphe et cliquez sur le bouton OCR. Attendez la fin de l’analyse. La durée de l’opération dépend de la qualité de numérisation du document et de la quantité de texte à traiter.

3- Corrigez les erreurs

PNG - 180.4 ko

Lorsque FreeOCR a achevé de déchiffrer le paragraphe, le texte apparaît dans le volet droit de l’interface. Vous pouvez alors utiliser la barre d’outils verticale pour le corriger. Si la reconnaissance s’effectue en langue française, les menus sont en revanche en anglais. Une série d’icônes permet d’éliminer les sauts de ligne inutiles (Remove Line Breaks) ou de remplacer les caractères erronés. Attention aux caractères accentués, que le logiciel peut avoir du mal à interpréter correctement ! Ils sont parfois ignorés et absents du texte converti, parfois confondus avec d’autres caractères. Ainsi, « pouvez » est souvent transformé en « pouwez » ...

4- Envoyez le texte converti vers Word

PNG - 198.2 ko

Après avoir effectué une première relecture grossière du texte reconnu par FreeOCR, poursuivez la correction à l’aide d’un traitement de texte, bien mieux adapté à ce travail. Cliquez dans la barre d’outils verticale sur le bouton représentant l’icône de Word. Mettez à profit le correcteur pour débusquer les mots mal orthographiés (et probablement mal reconnus) et traquer les coquilles qui vous auraient échappé à la première lecture. Utilisez l’outil Rechercher et remplacer pour rétablir les caractères accentués. Si vous utilisez un autre traitement de texte, OpenOffice.org par exemple, sélectionnez le texte, copiez-le dans le presse-papiers et collez-le dans un nouveau document. Revenez dans FreeOCR et lancez la reconnaissance sur le paragraphe suivant. Une barre d’outils verticale permet de naviguer rapidement entre les blocs.

591 visites depuis le 30 janvier 2013. Pour citer cet article :
Simon Florentin Adjatan, Sur les chemins de la GED : Transformer un imprimé en fichier texte/word. [En ligne : http://adjatan.org/tics-et-astuces/article/sur-les-chemins-de-la-ged-transformer-un-imprime] Consulté le 24-11-16