Incomplete text

MICRASRL19 · December 14, 2020, 11:04am

Hi there,
we are using version 20.11 of aspose OCR, to extract text from an image with 300DPI.

Following the source code we are using to get the text:

File file=new File(“C:\Sviluppo\OCR\test_300.jpg”);

AsposeOCR api=new AsposeOCR();

String result = api.RecognizePage(fileImage.getPath());

System.out.println(result);

The result we got is at the end of message.

Also attached there is the image (test_300.jpg) used for the tests.

As you can see, the text extracted from the image is not complete.

For example, the text extracted from line 1 is the following:

“It sistema postale degli Stati Unit d’America utilizza sislemni di OCR fin da”

As you can check, the final part “dal 1965. La” is missing.

The same happens for other lines, and also the entire final part is missing.

What can I do to get a complete and correct test result?

Thanks and Best Regards
Pierluigi Ferru

result message:
"/tsffan
It sistema postale degli Stati Unit d’America utilizza sislemni di OCR fin da
necessità di nconoscere le destinazioni delle missive e di organizza
autormatico ha spinto la ricerca net settore dell’OCR. I sistemi OCR legg
postale scritto sulle lettere e provvedono a stampare sulle missive un c
che rappresenta la destinazione della lettera. Per impedire che il codice a
la tettura dell’indirizzo e quindi complichi il lavoro dei postini il codice
stampato con un inchiostro vísibile solo se illuminato da una luce con lung
nell’ultravioletto. H codice a barre viene utifizzato da macchine smistatrici
la corrispondenza all’ufficio postale corrispondente che si preoccuperà di r
destinatario. Un metodo analogo è in uso dalle Poste Italiane per la ge
COrr1SDOrnquenza
Header
Originalmente, le distinzioni fra lettura ottica dei caratteri (usando le tec
quali gli specchi e gli obiettiv) e il riconoscimento digitale dei caratter
algoritmi di separazione ed analisi del testo) erano notevoli ed infatti eran
campi separati. Poiché non è rimasta più quasi nessuna applicazion
tecniche di lettura ottica si è esteso il termine OCR che ora Indica il ricon
caratteri digitali indipendentemente dalla sorgente delle irmrmagini.
I sistemi OCR per funzionare correttamente richiedono una fase di ""ad
Durante questa fase al sistema vengono forniti degli esempi di
corrispondente testo in formato ASCIl o simile in modo che gli algoritm
calibrare sul testo che usualmente andranno ad analizzare, Questo add
fondamentale se si considera che gli elementi che analizzano il testo non s
delle reti neurali e come tali richiedono un addestremento per funzion
software di OCR utilizzano algoritmi in grado dí riconoscere i contoni
ricostruire oltre al testo anche la formattazione della pagina.
Il iconoscimento esatto di un testo scritto in alfabeto latino digitalment
essere un testo scritto a macchina e successivamente scansionat
considerato un problema isolto, con tassi di riconoscimento Superio
riconoscimento della scrittura a mano libera e il riconoscimento degli alfab
un problema che tuttora non ha trovato delle soluzioni realmente soddi
tuttora oggetto di studi e ricerche.
Header
Sistermi per riconoscere defla scrittura a rmano libera hanno avuto un discr
commerciale se integrati in prodotti come PDA o cormputer portatifi. H
FwÄm
"

test_300.jpg (1.4 MB)

asad.ali · December 14, 2020, 9:13pm

@MICRASRL19

We have logged an issue as OCRJAVA-98 in our issue tracking system for the sake of detailed investigation on this case. We will further look into its details and keep you posted with the status of its correction. Please be patient and spare us some time.

We are sorry for the inconvenience.