Téléchargez un document PDF ou une image JPG, PNG ou GIF pour en extraire le texte (TXT, HOCR, BOX). Lisez les codes barres. Convertissez le document ou l'image en un PDF/A. Validez un PDF/A. Analysez un PDF à la recherche de menaces potentielles.

Configurez l'extraction en images d'un PDF et la préparation des images pour l'OCR ou le lecteur de codes barres (résolution, orientation, contraste, luminosité, redimensionnement, recadrage, bordures, etc.) et réutilisez ce jeu de paramètres par programme avec l'API.

legal_fr.pdf • 381k
legal_fr.pdf

 • 

legal_fr.txt

Le PDF contient les 2 images des 2 pages des mentions légales du site web, probablement une photocopie. Le texte a été lu avec Tesseract en mode 6 - Assume a single uniform block of text - après un redimensionnement des images à 125 % et une accentuation des contours. Cliquez sur un lien pour télécharger un fichier.

 •   •   •  NEWDOC
2137919

Seul 1 QR est lu par ZBar. À l'aide de YOLO, l'image est analysée et découpée en 2 images distinctes que ZBar peut facilement décoder.

Demandez-nous d'ajouter un traitement spécifique du texte extrait de vos documents (texte en clair d'un PDF ou lu dans des images par OCR, contenu d'un code barre) pour vérifier le résultat, le corriger, obtenir en sortie des données formatées en CSV, en JSON ou en XML qui pourront directement alimenter un autre service.

Toutes les fonctionnalités sont disponibles gratuitement dans l'interface de votre espace personnel ou par programme en service payant à l'aide d'une simple API REST. Voir le Guide de l'utilisateur.

Tesseract est un logiciel libre de reconnaissance optique de caractères sponsorisé par Google depuis 2006.

ZBar est un logiciel open source pour la lecture des codes barres (EAN-13/UPC-A, UPC-E, EAN-8, Code 128, Code 39, Interleaved 2 of 5 et QR Code).

YOLO (You Only Look Once) est un système de détection d'objets dans des images avec des implémentations libres de droits.

Le PDF/A est une version normalisée ISO du format PDF spécialisée pour l'archivage et la conservation des documents numériques.

Le consortium veraPDF, dirigé par l'Open Preservation Foundation et la PDF Association, a été créé en réponse au défi PREFORMA de la Commission européenne de développer un validateur en logiciel libre pour le format PDF/A.

Ghostscript est une suite logicielle dédiée au traitement des fichiers Postscript et PDF.

Poppler fournit un jeu de commandes pour extraire les pages, le texte et les images des fichiers PDF.

ClamAV est un antivirus gratuit.

Toutes les communications sont cryptées.

Les fichiers que vous téléchargez sont inaccessibles à autrui et les fichiers qui sont traités et générés par l'API sont automatiquement détruits.

Vous souhaitez ajouter la lecture du texte dans des images par un OCR avec l'extraction en images d'un PDF, la préparation des images pour l'OCR ou le lecteur de codes barres dans votre applicatif ? tesseractor.com est un logiciel développé par un éditeur ouvert au partage des connaissances et du code. Pour contacter mcPaLo, cliquez ici.