Tesseract-OCR je osnovni OCR engine. Koji nije u mogucnosti da analizira dokumente ili da formatira izlaz i nema graficko okruzenje. U stanju je da procesira TIFF format, kompresija nije podrzana ukoliko nije instaliran libtiff.
Istorija
Tesseract engine je razvijan u Hewlett Packard-ovim laboratorijama izmedju 1985 i 1994. Prvobitno je pisan u C-u dok je 1998 godine prepisan u C++.
Upotreba
Code: Select all
$ tesseract image.tif output [options]
Ocitavanje primer
Code: Select all
$ tesseract test.tif test_tekst -l eng
Ovih dana sam imao potrebu da "prepisem" dosta teksta, pa sam pokusao da skeniranjem i koriscenjem nekog od OCR programa pretvorim u tekst i dalje nastavim sa obradom, pokusao sam sa GOCR, sa kojim nisam bio uspesan.
Za sad sam vrlo zadovoljan sa Tesseract-OCR, uspesnost prepoznavanja kod mene je preko 95%
Opis prepisan sa Wikipedia stranice