Program pro rozpoznávání textu (OCR - Optical Character Recognition) -
Tesseract - byl původně vyvíjen firmou Hewlett Packard v letech 1985-95 a nevedl si vůbec špatně, když byl mezi třemi nejvýkonnějšími aplikacemi té doby. HP však o něj ztratilo zájem, zveřejnilo jeho kód, jenž se následně začal vyvíjet pod křídly Googlu.
Ten jej nyní vydává rovněž v otevřeném kódu, avšak ten již dnes moderním komerčním produktům nestačí. Nyní podporuje pouze anglický jazyk, neumí rozpoznávat dokumenty formátované ve více sloupcích a problémy mu činí i dokumenty tisknuté barevně, nebo ve stupních šedi. Avšak i tak by měl být dle vyjádření Googlu daleko lepší než ostatní open source OCR aplikace.
Zdroj:
Google