Tesseract OCR

Prikazi softvera i linkovi za preuzimanje

Moderators: Slackmuz, Urednik

Post Reply

offline

Post Napisano: 20 Mar 2010, 17:17


Tesseract-OCR je program za Opticko prepoznavanje karaktera (Optical Character Recognition)
Tesseract-OCR je osnovni OCR engine. Koji nije u mogucnosti da analizira dokumente ili da formatira izlaz i nema graficko okruzenje. U stanju je da procesira TIFF format, kompresija nije podrzana ukoliko nije instaliran libtiff.

Istorija
Tesseract engine je razvijan u Hewlett Packard-ovim laboratorijama  izmedju 1985 i 1994. Prvobitno je pisan u C-u dok je 1998 godine prepisan u C++.

Upotreba

Code: Select all

$ tesseract image.tif output [options]
Uz program tesseract potrebno je i instalirati language pack-ove npr. ENG. koji su potrebni za prepoznavanje.

Ocitavanje primer

Code: Select all

$ tesseract test.tif test_tekst -l eng

Ovih dana sam imao potrebu da "prepisem" dosta teksta, pa sam pokusao da skeniranjem i koriscenjem nekog od OCR programa pretvorim u tekst i dalje nastavim sa obradom, pokusao sam sa GOCR, sa kojim nisam bio uspesan.
Za sad sam vrlo zadovoljan sa Tesseract-OCR, uspesnost prepoznavanja kod mene je preko 95% :)

Opis prepisan sa Wikipedia stranice
Last edited by branko on 27 Apr 2010, 21:23, edited 1 time in total.


Post Reply

Who is online

Users browsing this forum: No registered users and 16 guests