DI-tic: OCR

martes, 13 de marzo de 2012

Optical character recognition es una especie de software de reconocimiento de texto. Entre los software encontramos el Omnipage professional

En a Web 2 encontramos FreeOCR. No necesita registro. Baja la imágenes en JPG, GIF, TIFF BMP, PDF. Se limita a 10 imágenes por hora y a 2 MB

Para realizar el reconocimiento se basa en cuatro etapas

Binarización
Fragmentación de la imágen
Adelgazamiento de los componentes
Comparación con patrones(metodo de proyección, método geómetrico, método estructural, método neo-mimético, markoviano,Zadeh)

Se aplica a texto manuscrito, radares,indexación de datos(metadata),digitalizar grandes cantidades de documentos.

Fuentes de información

Martin, M(N.f.)Contribución al reconocimiento de caracteres en imágenes complejas . Universidad de Vigo(tesis doctoral).

martes, 13 de marzo de 2012