Eén van de grootste voordelen van deze informatiemaatschappij is dat je alle mogelijke informatie en data kunt vinden die je maar zoekt. Daar moet je nog wel je best voor doen en je moet zeker ook weten waar je dit alles kunt vinden maar er is zoveel data opgeslagen in databases, systemen en websites dat het letterlijk niet meer voor te stellen is. Dat is enorm handig als je, zoals ik, heel vaak lijsten en overzichten maakt waarbij je niet alles zelf hoeft te bedenken of op te zoeken maar waar je handig gebruik kunt maken van bestaande gegevens.
Dat klinkt misschien een beetje abstract maar laatst moest ik bijvoorbeeld een bestaande lijst met een paar honderd namen erin aanvullen met hun mailadressen en kostenplaatsen van de afdeling waar ze werken. Dat kun je allemaal handmatig gaan opzoeken in de systemen waar die gegevens zitten maar je kunt ook een dump uit die systemen gebruiken om het aan elkaar te koppelen en zo ‘automatisch’ de namen te verbinden met hun mailadressen en de kostenplaatsen. Daar ben ik heel lang mee aan het prutsen geweest in vooral Excel maar dat had misschien korter gekund als ik eerder van het bestaan van Google Refine had geweten.
Daar tipte een studente data journalistiek me op en na een paar uurtjes spelen met deze gratis software ben ik helemaal verkocht. Google heeft het, onder de naam Freebase Gridworks, overgenomen als onderdeel van een overname van de makers, Metaweb, en opnieuw uitgebracht als Google Refine. Het is lastig om een duidelijke omschrijving te geven wat het doet maar in essentie kan het data in diverse formaten (txt, csv, xml, json, google spreadsheet) inlezen en op allerlei manieren bewerken. Het bevat tools om eenvoudig de data op te schonen, in een ander formaat te zetten maar ook hele complexe acties als het opsplitsen en opnieuw structureren van gegevens (datatransformatie). Dat laatste vereist wel kennis van de GREL taal en dat gaat me eerlijk gezegd ver boven de pet.
Google stopt binnenkort met de ondersteuning ervan maar omdat het open source software is kan Refine straks verder gaan als Open Refine. Ik ga in ieder geval de documentatie nog wat verder bestuderen om te kijken waar ik deze handige tool nog meer voor kan gebruiken. Het opschonen van rommelige lijstjes in Excel werkt er in ieder geval al perfect mee.
#
RT @rsnijders: Nieuw op Vakblog: Handiger werken met data mbv Google Refine http://t.co/C12y0UIG
Handiger werken met data mbv Google Refine http://t.co/sZfzGHSI
Handiger werken met data mbv Google Refine http://t.co/0zFGOIIH
Handiger werken met data mbv Google Refine | Vakblog – werken met informatie – http://t.co/MARyQ3Qf
Handiger werken met data mbv Google Refine | Vakblog – werken met informatie – http://t.co/lo9PHjmm