Handiger werken met data mbv Google Refine

Eén van de grootste voordelen van deze informatiemaatschappij is dat je alle mogelijke informatie en data kunt vinden die je maar zoekt. Daar moet je nog wel je best voor doen en je moet zeker ook weten waar je dit alles kunt vinden maar er is zoveel data opgeslagen in databases, systemen en websites dat het letterlijk niet meer voor te stellen is. Dat is enorm handig als je, zoals ik, heel vaak lijsten en overzichten maakt waarbij je niet alles zelf hoeft te bedenken of op te zoeken maar waar je handig gebruik kunt maken van bestaande gegevens.

Dat klinkt misschien een beetje abstract maar laatst moest ik bijvoorbeeld een bestaande lijst met een paar honderd namen erin aanvullen met hun mailadressen en kostenplaatsen van de afdeling waar ze werken. Dat kun je allemaal handmatig gaan opzoeken in de systemen waar die gegevens zitten maar je kunt ook een dump uit die systemen gebruiken om het aan elkaar te koppelen en zo ‘automatisch’ de namen te verbinden met hun mailadressen en de kostenplaatsen. Daar ben ik heel lang mee aan het prutsen geweest in vooral Excel maar dat had misschien korter gekund als ik eerder van het bestaan van Google Refine had geweten.

Daar tipte een studente data journalistiek me op en na een paar uurtjes spelen met deze gratis software ben ik helemaal verkocht. Google heeft het, onder de naam Freebase Gridworks, overgenomen als onderdeel van een overname van de makers, Metaweb, en opnieuw uitgebracht als Google Refine. Het is lastig om een duidelijke omschrijving te geven wat het doet maar in essentie kan het data in diverse formaten (txt, csv, xml, json, google spreadsheet) inlezen en op allerlei manieren bewerken. Het bevat tools om eenvoudig de data op te schonen, in een ander formaat te zetten maar ook hele complexe acties als het opsplitsen en opnieuw structureren van gegevens (datatransformatie). Dat laatste vereist wel kennis van de GREL taal en dat gaat me eerlijk gezegd ver boven de pet.

Google stopt binnenkort met de ondersteuning ervan maar omdat het open source software is kan Refine straks verder gaan als Open Refine. Ik ga in ieder geval de documentatie nog wat verder bestuderen om te kijken waar ik deze handige tool nog meer voor kan gebruiken. Het opschonen van rommelige lijstjes in Excel werkt er in ieder geval al perfect mee.

#

Raymond Snijders

Sinds 1995 houdt Raymond zich bezig met de combinatie van ICT, bibliotheken en onderwijs vanuit het perspectief van (vooral) de bibliotheek en informatievoorziening. Thans is hij werkzaam bij de Hogeschool Windesheim als senior informatiebemiddelaar en houdt hij zich bezig met de digitale bibliotheek, contentlicenties, ebooks en auteursrecht. Over deze onderwerpen en de impact die ze (kunnen) hebben op het onderwijs en bibliotheken blogt hij sinds 2006 op zijn Vakblog. In 2013 won hij de Victorine van Schaickprijs voor zijn blog.

Comments (5) Write a comment

Leave a Reply

Required fields are marked *.


This site uses Akismet to reduce spam. Learn how your comment data is processed.

  • © 2006- 2019 Vakblog – werken met informatie
    Aangedreven door WordPress en duizenden liters koffie // Theme: Tatami van Elmastudio
Top