google dataset search header

Google Dataset Search: googelen naar onderzoeksdata

Deze week kwam Google met een nieuwe zoekmachine: Google Dataset Search. Deze zoekmachine moet de miljoenen datasets die in duizenden datarepositories wereldwijd opgenomen zijn (en tegenwoordig ook door overheden openbaar gemaakt worden) nu eindelijk eenvoudig vindbaar gaan maken. 

Van gesloten naar open

Er wordt wereldwijd enorm veel onderzoek verricht. Dat onderzoek levert natuurlijk heel veel onderzoeksresultaten op. Dat zijn vaak artikelen die in (dure) vaktijdschriften gepubliceerd worden en die door wetenschappelijke uitgevers in (al net zo dure) databanken gestopt worden die vervolgens door universiteiten en onderzoeksinstellingen weer afgenomen worden.

Maar ja, dat betekent dat al die onderzoeksresultaten in databanken opgesloten zit en dat je er alleen maar aan kunt komen als jouw instelling toegang gekocht heeft tot de artikelen van de specifieke uitgever waar die artikelen ooit door gepubliceerd zijn.

Nou is er al jaren een beweging gaande om alle onderzoeksresultaten, die met publieke middelen gefinancierd zijn, vrij toegankelijk te maken voor iedereen. Open access publiceren betekent dat artikelen in repositories van onderwijs- en onderzoeksinstellingen geplaatst kunnen worden (en gratis te raadplegen zijn) maar ook dat wetenschappelijke uitgevers de artikelen vrij toegankelijk maakt voor iedereen die daar in geïnteresseerd is. Dat laatste gaat overigens nog met grote tegenzin van de uitgevers en leidde deze week ook al tot de aankondiging door 11 Europese onderzoeksfinanciers dat open access publiceren nu een verplichting wordt.

Los van de uitdaging om open access publiceren te stimuleren ontstaat er ook een uitdaging om al die publicaties eenvoudig te kunnen vinden. Immers, als deze in duizenden repositories en op duizenden websites geplaatst worden, hoe vind je ze dan terug? De ultieme oplossing is er eigenlijk niet maar met Google Scholar doet Google in elk geval zijn best. Google indexeert de websites sowieso al natuurlijk en door gebruik te maken van de webstandaarden voor de repositories kan Google ook de metadata van de publicaties in de repositories meenemen.

Onderzoeksdata

Voordat er een publicatie (of welk onderzoeksresultaat er uit onderzoek voortvloeit) tot stand komt, wordt er echter ook data geproduceerd in onderzoek. Heel veel data zelfs. Alle resultaten van metingen, gesprekken/interviews, statistieken, enquêtes enz die gedaan worden tijdens het onderzoek bijvoorbeeld.

Tegenwoordig wordt onderzoeksdata ook steeds vaker beschikbaar gemaakt in datarepositories (zoals EASY) vanuit hetzelfde open access idee en maken (lokale) overheden de door hun verzamelde data ook vrij toegankelijk voor iedereen. De rijksoverheid heeft zelfs een apart dataportaal ingericht waar je de meest uiteenlopende datasets kunt vinden. Van de omzet van importeurs van personenwagens tot een register van toegekende telefoonnummers.

Vanzelfsprekend is het geweldig dat er zo veel datasets op het internet staan. Ze kunnen door onderzoekers (voor nieuw onderzoek) en/of door journalisten (voor de onderbouwing bij onderzoeksjournalstiek) gebruikt worden. Mits ze eenvoudig gevonden kunnen worden en dat was altijd een probleem. Datasets zijn vaak meerdere bestanden, in een grote verscheidenheid aan bestandsformaten, die gebundeld zijn in een ZIP bestand. Een zoekmachine kan deze niet herkennen als datasets zonder dat ze met metadata expliciet zijn gemarkeerd als datasets.

Gestandaardiseerd

Nou bestaat er wel degelijk een metadata standaard die specifiek voor datasets ontwikkeld is. Schema.org – een initiatief dat in 2011 door o.a. Microsoft en Google is gestart – houdt zich bezig met het ontwikkelen van standaarden voor gestructureerde gegevens op het web en heeft de metadata voor datasets gestandaardiseerd in een eigen schema.

Eind juli kondigde Google aan deze standaard nu te implementeren in de zoekmachine zodat ook datasets (beter) getoond worden in de zoekresultaten maar deze week kwamen ze onverwachts ook met een aparte zoekmachine die zich specifiek en alleen richt op het vindbaar maken van datasets: Google Dataset Search. Het heeft als doel om alle datarepositories – die voldoen aan de dataset standaard en vindbaar zijn voor Google – te indexeren zodat je op één plek miljoenen datasets kunt doorzoeken.

Google Dataset Search

Een eigen subdomeinnaam heeft Google Dataset Search nog niet en in de aankondiging gebruikt Google ook een redirect url g.co/datasetsearch om te verwijzen naar de zoekmachine die thans op toolbox.google.com/datasetsearch te vinden is.

google dataset search
De interface is, zoals je van Google gewend bent, extreem eenvoudig zonder mogelijkheid om geavanceerd te zoeken. Er worden twee voorbeeldzoekacties gegeven waar je uit kunt afleiden dat in elk geval de datasets van de National Oceanic and Atmospheric Administration te vinden zijn maar verder is het onduidelijk welke repositories/instellingen er wel of niet zijn opgenomen.

google dataset search

Begin je echter met het tikken van een (Nederlandstalige) zoekterm, dan blijken er meer dan alleen Amerikaanse datarepositories opgenomen te zijn. Ik heb niet geprobeerd om een uitputtende lijst te maken maar EASY (DANS) en de datasets van de Nederlandse gemeentes en overheid lijken vindbaar te zijn in Dataset Search.

google dataset search
De weergave van de zoekresultaten is eveneens redelijk summier. De websites/repositories waar de dataset te vinden is wordt meteen onder de titel aangegeven [1] zodat je gelijk kunt doorklikken en als de dataset onder een andere titel elders te vinden is dan krijg je in de linkerkolom de overige vindplaats(en) te zien [2].

Verder zie je de standaard metadatavelden, mits ze aanwezig zijn, zoals o.a. de publicatiedatum, gebruikslicentie, downloadformaten en de beschrijving van de dataset.

Google roept ook iedereen op om hun datarepositories maar vooral ook eigen websites met datasets vindbaar te maken voor Dataset Search en verwijst naar meer informatie hierover voor beheerders en webmasters. Er is zelfs een tool beschikbaar waarmee bijvoorbeeld onderzoekers zelf hun eigen website kunnen (laten) voorzien van de HTML tags om datasets vindbaar te maken voor Google.

Nog maar het begin

Google benadrukt dat Dataset Search een pilot is dat de komende maanden en jaren nog verder vorm moet krijgen. Het ligt dan ook voor de hand dat de interface, wat er en hoe het getoond wordt en ook de URL allemaal nog gaan veranderen.

Hoewel het op één plek kunnen vinden van datasets een enorm voordeel kan zijn, wil dit niet zeggen dat Google Dataset Search nu al de beste plek is om onderzoeksdata te vinden. De dataset uit het hierboven gebruikte voorbeeld van de bodeminformatie onderzoeken is afkomstig van het dataportaal van de gemeente Breda en daar verwijst Google ook keurig naar. Dezelfde dataset is echter ook ontsloten via het dataportaal van de Nederlandse overheid die je de gegevens meteen laat downloaden zonder verdere verwijzingen.

Google heeft nog wel werk te verrichten maar Dataset Search gaat ongetwijfeld net zo bekend worden als Scholar dat nu is. Je kunt nu immers eindelijk googelen naar onderzoeksdata.

#

Raymond Snijders

Sinds 1995 houdt Raymond zich bezig met de combinatie van ICT, bibliotheken en onderwijs vanuit het perspectief van (vooral) de bibliotheek en informatievoorziening. Thans is hij werkzaam bij de Hogeschool Windesheim als senior informatiebemiddelaar en houdt hij zich bezig met de digitale bibliotheek, contentlicenties, ebooks en auteursrecht. Over deze onderwerpen en de impact die ze (kunnen) hebben op het onderwijs en bibliotheken blogt hij sinds 2006 op zijn Vakblog. In 2013 won hij de Victorine van Schaickprijs voor zijn blog.

Comments (13) Write a comment

Leave a Reply

Required fields are marked *.


This site uses Akismet to reduce spam. Learn how your comment data is processed.

  • © 2006- 2018 Vakblog – werken met informatie
    Aangedreven door WordPress en duizenden liters koffie // Theme: Tatami van Elmastudio
Top