Tegenwoordig wordt digitale informatie over zowat alle aspecten van ons leven met een onthut-sende snelheid aangemaakt. Verborgen tussen al die gegevens ligt de sleutel tot de kennis om ziekten te genezen, meer geld te verdienen en de wereld efficiënter te beheersen. Maar de technische instrumenten en de sociale gebruiken die de wijze bepalen waarop we die onderbenutte schatkamer managen, delen, integreren en analyseren zijn intussen achterhaald. Het goede nieuws is dat een aantal technische innovaties (met namen als Ajax, XML, RDF en OWL) en sociale conventies in verband met gegevensbeheer het world wide web in de richting duwen van wat we het semantische web noemen.
...

Tegenwoordig wordt digitale informatie over zowat alle aspecten van ons leven met een onthut-sende snelheid aangemaakt. Verborgen tussen al die gegevens ligt de sleutel tot de kennis om ziekten te genezen, meer geld te verdienen en de wereld efficiënter te beheersen. Maar de technische instrumenten en de sociale gebruiken die de wijze bepalen waarop we die onderbenutte schatkamer managen, delen, integreren en analyseren zijn intussen achterhaald. Het goede nieuws is dat een aantal technische innovaties (met namen als Ajax, XML, RDF en OWL) en sociale conventies in verband met gegevensbeheer het world wide web in de richting duwen van wat we het semantische web noemen. De vooruitgang in de richting van een betere gegevensintegratie zal steunen op dezelfde basistechnologie die ook het world wide web zo succesvol maakte: de link. Het huidige web, inbegrepen de mogelijkheden om informatie snel te vinden, put zijn kracht uit het feit dat mensen documenten in standaardformaten publiceren en ze vervolgens aan elkaar koppelen. De waarde van het web neemt op meer dan lineaire wijze toe met het aantal links. Men heeft dat het netwerkeffect genoemd. Het semantische web zal op dezelfde manier kracht putten, maar dan door gegevens, eerder dan documenten, te koppelen. Om de noodzaak voor een betere gegevensintegratie in te zien, volstaat het om het enorme volume van gegevens over experimenten die overal ter wereld geproduceerd worden in farmaceutische laboratoria, te vergelijken met de frustrerend lage snelheid waarmee nieuwe geneesmiddelen ontdekt worden. Biowetenschappers komen stilaan tot de conclusie dat in vele gevallen de informatie die nodig is om nieuwe medicijnen te ontdekken niet terug te vinden is in een uniek labo of in één bibliotheek of in een opslagplaats van genoomgegevens. De informatie die nodig is om de ingewikkelde wisselwerking tussen ziekten, biologische processen en het brede spectrum van chemische substanties te begrijpen, zit verspreid over allerlei gegevensbanken, rekenbladen en documenten. De vooruitgang op het gebied van nieuwe medicijnen hangt bijgevolg af van technologie die het delen en integreren van gegevens mogelijk maakt, en van wijzigingen in de institutionele gebruiken om de exploratie van de links tussen die gegevens mogelijk te maken. Dat wil niet zeggen dat farmabedrijven hun gegevens zomaar moeten vrijgeven, maar wel dat ze flexibeler licentiemodellen zouden kunnen ontwikkelen. Met de combinatie van hun eigen intellectuele eigendom en die van anderen kunnen ze dan meerwaarde creëren. Om dat soort integratie mogelijk te maken, bestaat een fundamentele stap erin om de data te publiceren met gebruik van semantische webnormen (RDF, OWL, SPARQL) en ze aan elkaar te koppelen met definities van de termen die gebruikt worden om de gegevens uit te drukken. Wanneer bijvoorbeeld de resultaten van experimenten gepubliceerd worden over het gedrag van een bepaalde chemische stof binnen een breder biologisch proces, dan moet aangeduid worden welke vocabularia gebruikt worden om de biologische en chemische paden te beschrijven. Als iemand anders vervolgens die gegevens wenst te integreren - bijvoorbeeld met andere experimenten die beschreven zijn in de onderzoeksliteratuur - dan kan die persoon hetzelfde vocabularium gebruiken om de sleutelwoorden van het artikel te verbinden met scheikundige namen. Wetenschappers zijn trouwens niet de enigen die nood hebben aan een betere gegevensintegratie. Neem nu de sector van de financiële diensten. Een geslaagde investeringsstrategie hangt af van het terugvinden van patronen en trends in een steeds meer uiteenlopende mix van informatiebronnen (nieuws, marktgegevens, historische trends, grondstoffenprijzen). Vooruitstrevende leveranciers van financiële informatie ontwikkelen nu al diensten die de gebruikers in staat stellen om de gegevens waarover ze zelf beschikken - over hun eigen portefeuille of afkomstig van bedrijfsinterne marktmodellen - gemakkelijk te integreren met de gegevens die aangeleverd worden door de informatiedienst. De unieke waardecreatie schuilt daarbij in de integratiedienst die verleend wordt, niet in de ruwe gegevens op zich of in de software-instrumenten. De sleutel voor een dergelijke integratie ligt bij het gebruik van gemeenschappelijke dataformaten die de informatie koppelen aan identificeerbare vocabularia. Het semantische web vereist niet dat iedereen dezelfde woordenlijst gebruikt, net zomin als we mogen verwachten dat de hele wereld een enkele taal spreekt. Ze reikt wel instrumenten aan om de ene set termen te vertalen naar een andere. Die vertalingen zullen uiteindelijk steeds grotere verzamelingen van informatie doorheen het hele net integreren. De technologie van het semantische web biedt aanzienlijke voordelen voor specifieke gebruikersgemeenschappen. De meest opwindende ontdekkingen zullen echter voortspruiten uit de toevallige waardecreatie afkomstig van de combinatie en integratie van gegevens die uit uiteenlopende bronnen gehaald worden De auteur is directeur van het World Wide Web Consortium. Tim Berners-Lee