PDF sur Google Drive => OCR => Google Sheet


#1

Bonjour à tous,

quelqu’un connaitrait-il un moyen (tel qu’une extension Google) de récupérer les données de fichiers .pdf déposés sur Google Drive, et d’en extraire quelques données via OCR en vue de compléter un fichier Google sheet ? Ou peut être via une application tierce type Evernote ?

merci d’avance pour votre aide,


#2

A mon avis, il va falloir scripter un peu pour faire ça. Heureusement il existe pas mal d’outils pour t’aider à faire les taches les plus pénibles :-)

Première étape: télécharger tes PDFs en local, avec le logiciel de synchro de Google Drive.

Si ton PDF a besoin d’un coup d’OCR, tu peux utiliser l’outil gratuit de google: tesseract-ocr. Sinon tu peux utiliser un parseur de contenu PDF comme pdfreader (module npm/node.js que j’ai développé pour ça).

Ensuite tu pourrais utiliser un autre module npm (comme google-spreadsheet-append-es5, dont je suis aussi l’auteur) pour stocker tes données extraites dans Google Spreadsheet.

En espérant que ça t’aide !


#3

tu peux sans doute utiliser Zapier : ils proposent une API OCR :
https://zapier.com/zapbook/speechtrans/

Auquel cas tu dois pouvoir cabler l’API OCR avec l’API Google Drive


#4

merci pour vos réponses, j’ai finalement trouvé un moyen de récupérer les données autrement que via le PDF. mais je garde les liens pour une éventuelle utilisation future !