Tessaract - OCR gratuito di Google [Archivio]

jumpjack

27-08-2009, 13:41

http://code.google.com/p/tesseract-ocr/

Sembrerebbe un ottimo programma... se non fosse che ha una documentazione di una complicatezza apocalittica! Dovete leggere diverse pagine (sempre che riusciate a trovarle) per scoprire che per installarlo sotto Windows bisogna:

scaricare l'ESEGUIBILE WINDOWS (http://tesseract-ocr.googlecode.com/files/tesseract-2.04.exe.tar.gz)
scaricare uno o piu' file di lingua (inglese (http://tesseract-ocr.googlecode.com/files/tesseract-2.00.eng.tar.gz), italiano (http://tesseract-ocr.googlecode.com/files/tesseract-2.00.ita.tar.gz))
scompattate i due file
copiate la cartella tessdata ottenuta dal secondo file nella cartella ottenuta dal primo file

lanciate con
tesseract immagine.tif testo.txt -l ita

Dopo un po' nel file testo.txt ci sarà il risultato ottenuto esaminando il file immagine.tif.

Notare che, senza installare librerie aggiuntive (in modo complicatissimo...), solo certi file TIF vengono accettati: io sono riuscito a crearli solo con XNView (devono essere non compressi).

Il mio problema è che il programma scambia tutte le O per U !!! :confused: :muro:

E "istruirlo" da zero (http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract) è una cosa decisamente complicata...

In windows si puo' fare con bbTesseract (http://code.google.com/p/bbtesseract/downloads/list): bisogna caricare un'immagine, e il file di testo che contiene il testo corrispondente a quello dell'immagine, doppdiche'... boh?