Buscar en Catblow:

5/22/2007

OCR libre en Ubuntu, Windows y próximamente en GNU/Linux y Mac OS X

Ubuntu es una distribución de GNU/Linux, pero la aplicación está totalmente operativa en Ubuntu 6.06 (Dapper) y 6.10 (Edgy), aunque es de suponer que funcionará en cualquier derivado de Debian. Según dicen en la web, están trabajando para que vaya en el resto de versiones de GNU/Linux.

El programa tesseract-ocr fue comprado por Google a HP hace varios años y la verdad es que reconoce incluso el texto en varias columnas, cosa que ni la versión 7 del famoso software de reconocimiento óptico de caracteres (OCR) de Adobe es capaz de hacer.

El programa lo podéis descargar desde aquí, aunque la imagen tiene que estar en formato TIFF para que sea reconocida.

Por otra parte, este programa será uno de los motores del futuro gran software OCR, también de google y también en código abierto, OCRopus, el cual aún está en fase temprana de desarrollo (fuí incapaz de descubrir cómo funcionaba).

Fuente: Magarto.