Nooit meer overtypen

OCR-software zet gedrukte documenten om naar digitale computerbestanden. Maar zo’n operatie verloopt lang niet altijd pijnloos.

Reacties: e-trends@trends.be Volgende week: dvd-navigatiesystemen.

Er wonen tegenwoordig drie kaboutertjes in mijn pc. Ze hebben een lastig taakje op zich genomen: het overschrijven van teksten. Oké, kaboutertjes bestaan niet en Finereader Pro 7.0, Omnipage Pro 14 Office en Readiris Pro 7 zijn drie softwarepakketten, maar handig zijn ze wel. Zogenaamde OCR-software slaagt er immers in gedrukte documenten om te zetten naar computerbestanden, zodat ze verder kunnen worden bewerkt. Finereader is de oplossing van Abbyy Software uit Moskou, terwijl Omni-page door het Amerikaanse Scansoft werd ontwikkeld en Readiris door Iris uit Louvain-La-Neuve.

De test

De drie leveranciers kunnen een hele waslijst aan toeters en bellen voorleggen, maar ik keer voor de goede orde even terug naar de kern van de zaak: het snel, makkelijk en zonder informaticadiploma ‘digitaliseren’ van teksten. In onberispelijke kwaliteit, dat spreekt. Ik ging daarom aan de slag met drie uiteenlopende documenten: een saai stukje tekst dat uit de fax gerold kwam, een mooi vormgegeven artikel uit Trends – inclusief verraderlijke tabellen en witte tekst op een zwarte achtergrond – en een redelijk eenvoudige cijfertabel uit het jaarverslag van De Lijn. Telkens werd vertrokken van een goed ingescande versie van de documenten, die vervolgens door de OCR-pakketten werd gelezen. Niet na het eindeloos configureren van de software, maar grotendeels volgens de basisinstellingen.

De fax bleek een makkie, op enkele voorspelbare foutjes na. Zo wordt een e nogal vaak voor een c aangezien en gaat het plots over “dc curo”. Geen enkel programma liet meer dan vijf of tien steken vallen, Finereader scoorde het best.

Een mooie start, maar op het artikel uit Trends worden de eerste tanden stukgebeten. Ik scande zowel in zwart-wit – eigenlijk: 256 grijswaarden – als in kleur in, maar stelde geen spectaculaire verschillen vast. Readiris wil zowat de helft van het artikel – inclusief de hele eerste pagina – niet lezen en geeft de paragrafen als afbeelding weer. Omnipage haalt in zwart-wit behoorlijke resultaten, maar gaat bij de kleurenversie de mist in. De Word-pagina’s die het programma produceert, zijn minuscuul klein en kunnen bovendien niet worden afgedrukt. Finereader scoort niet slecht, maar weigert de fotolegendes te ‘lezen’: ze worden weergegeven als onderdeel van de foto zelf.

De tabel uit het jaarverslag vormt de grootste uitdaging, al was het maar omdat er groene cijfers op een crèmekleurige achtergrond in voorkomen. Ook hier probeerde ik of inscannen in kleur iets uithaalt. Dit keer dus wel, althans voor Omnipage. Hoewel het programma zich meer dan behoorlijk uit de slag trok, zaten er in de herkenning van de zwart-witpagina belangrijke fouten. Het is wellicht even schrikken als blijkt dat de 0.542 van Omnipage eigenlijk 1542 is. Maar zie, schotel het programma een kleurenscan voor en de herkenning is werkelijk perfect.

Naast een foutloze herkenning is het ook belangrijk dat een OCR-programma het computerbestand in dezelfde vorm kan gieten als het oorspronkelijke document. Een cijfertabel willen we dus liefst naar een Excel-spreadsheet omzetten, inclusief de indeling in rijen en kolommen. Finereader maakt er zich wat dat betreft al te makkelijk vanaf: alles staat in één kolom, eerst de rubrieken en daaronder de cijfers die er eigenlijk naast horen.

Magische formule

Elk pakket heeft zijn kuren en kwaliteiten en wie diep genoeg graaft in opties en instellingen wordt wellicht overal met perfecte leeskwaliteit beloond. Maar alleen Omnipage komt in de buurt van de magische formule ‘inscannen, herkennen, klaar’. Het programma levert niet altijd schitterend werk af, moet de duimen leggen voor Readiris wat betreft gebruiksgemak en voor Finereader als het op de herkenningsgraad aankomt. Maar Omnipage produceert wel zonder morren meer dan behoorlijke digitale kopieën van documenten en is soepel genoeg om nu een tabel en dan weer een artikel in te lezen.

Raphael Cockx

Fout opgemerkt of meer nieuws? Meld het hier

Partner Content