Het nut van OCR

Heeft u een artikel uit een krant of tijdschrift dat u graag wilt bewaren? Met een scanner is dat zo gepiept. En als die uitgerust is met OCR, dan kunt u de tekst er gemakkelijk uit distilleren voor eventuele bewerking.

Een interessant krantenartikel of een boeiende reportage in uw favoriete vakblad gelezen? Uitscheuren of kopiëren en in een mapje bewaren is dan een optie. Maar u kunt de tekst ook scannen en opslaan op de harde schijf van uw computer. Als u een scanner voor eigen gebruik heeft, dan is de kans reëel dat bij de installatie ervan ook OCR-software op uw pc gezet werd.

OCR of Optical Character Recognition is een technologie die de afzonderlijke karakters in een beeld – bijvoorbeeld een ingescand artikel – herkent en bewaart als een tekstbestand. Zo’n tekstbestand is heel wat kleiner dan een grafisch bestand en neemt dus veel minder plaats in op uw harde schijf. Maar het belangrijkste voordeel is dat u de gedigitaliseerde tekst kunt bewerken in een tekstverwerker zoals Microsoft Word. En dat u een bepaalde passage uit het artikel gemakkelijk kunt kopiëren naar een e-mail. Zonder OCR kan zoiets niet.

Op de testbank

Wij testten de OCR-mogelijkheden van enkele goedkope scanners uit en die vielen erg goed mee. De kwaliteit van het bronartikel is uiteraard cruciaal, maar wij slaagden erin om een bedrijfsrapport met infokader, grafiek én foto van de CEO haast feilloos om te zetten in een Word-document. Slimme OCR-toepassingen zijn immers in staat om deze afzonderlijke elementen te herkennen en in het tekstbestand te importeren als tabel, grafiek, afbeelding, enzovoort. Als u bijvoorbeeld de foto’s overbodig vindt, dan kunt u die gemakkelijk verwijderen. Ter info: zelfs verticale tekst werd bij onze tests doorgaans herkend en foutloos omgezet in digitale karakters.

Heeft uw scanner geen (goede) OCR-mogelijkheden? Geen probleem: probeer dan eens een tool zoals SimpleOCR (www.simpleocr.com) uit: dit gratis programma scoorde in onze tests behoorlijk, al wist het soms geen blijf met tabellen en grafische elementen. Bent u niet tevreden over de resultaten, overweeg dan ABBYY FineReader (finereader.abbyy.com). Voor dit pakket betaalt u wel 139 euro (gratis uit te testen gedurende twee weken), maar het is nauwkeuriger en kan wel goed overweg met tabellen, grafieken en afbeeldingen in een tekst. Het resultaat kunt u onder meer bewaren als Word- of pdf-document. Hierin wordt de oorspronkelijke opmaak doorgaans prima gerespecteerd.

Redder in nood

Maar wat als u bijvoorbeeld via e-mail een ‘traditioneel’ ingescand artikel van een collega ontvangt? U zou het dan kunnen afdrukken en zelf opnieuw inscannen met OCR, maar dat is omslachtig en zorgt voor kwaliteitsverlies. Het is gemakkelijker om hiervoor een webdienst als Free OCR (www.free-ocr.com) in te schakelen. Simpelweg het bewuste bestand uploaden, de gewenste taal kiezen, op de ‘Send file’-knop klikken en in het venster bovenaan verschijnt dan de gedistilleerde tekst. Die kunt u kopiëren naar bijvoorbeeld uw tekstverwerker voor verdere bewerking. Bij onze tests scoorde Free OCR behoorlijk, al was er nog wel wat opschoonwerk.

Scantips voor een goed OCR-resultaat

> Leg de brontekst plat en recht.

> Scan in een hoge resolutie.

> Zorg voor een goed contrast.

> Experimenteer.

Door Roel Van Espen

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content