Zoeken naar in de Wayback Machine gearchiveerde websites

De Wayback Machine maakt onderdeel uit van The Internet Archive die als doel heeft om zo’n beetje het hele internet te archiveren. Elke week worden er bijna een miljard webpagina’s als ‘snapshot’ bewaard waarbij de pagina’s – zoals ze er op dat moment uit zien – permanent gearchiveerd en daarna opgevraagd kunnen worden. Onlangs werd een nieuwe (beta)versie van de Wayback Machine geïntroduceerd waarmee nu ook op trefwoorden gezocht kan worden naar websites die gearchiveerd zijn.

Waarom zou je in de Wayback Machine willen zoeken?

Natuurlijk is de Wayback Machine in eerste instantie vooral handig om oudere versies van websites te vinden. Ideaal als je wilt weten hoe een site er jaren geleden uitzag (zoals bijv. dit blog) of als je iets op die site zoekt wat inmiddels al lang weer verdwenen is. Dat is immers het voordeel van een archief: je kunt terugvinden wat er ooit was en niet (alleen) wat er op dit moment op het internet te vinden is. Dat terugvinden van oude (website)pagina’s is zelfs zo essentieel dat de Wayback Machine een belangrijke rol speelt bij het beschikbaar maken – en houden – van links op het internet. Alleen al op de Engelse Wikipedia zijn meer dan een miljoen dode links vervangen door in de Wayback Machine gearchiveerde versies die nog wel gewoon werken.

Het terugvinden van specifieke pagina’s en sites kon echter alleen op de URL zelf. Prima als je een dode link hebt – of van een specifieke site wilt weten of er een gearchiveerde versie bewaard is gebleven – maar niet zo handig als je de Wayback Machine als bron wilt gebruiken om te doorzoeken. En dat kan met honderden miljarden gearchiveerde webpagina’s best wel interessant zijn. Google heeft vast meer pagina’s in zijn index zitten maar die verwijdert nou net actief alle pagina’s en sites die niet meer bereikbaar zijn op het internet

Daarom heeft The Internet Archive een nieuwe versie van de Wayback Machine gemaakt waarin een (klein) deel van alle gearchiveerde pagina’s geïndexeerd zijn. Met Site Search kun je nu, behalve op URL’s, ook zoeken op trefwoorden die naar de home pages van sites verwijzen.

wayback machine betaMogelijkheden en beperkingen van het zoeken

Site Search van de Wayback Machine is absoluut geen vervanger van Google en werkt ook heel anders. De index is niet opgebouwd uit de gearchiveerde webpagina’s zelf maar wel door honderden miljarden links en verwijzingen naar (de voorpagina’s van) de websites te indexeren. Als je dus op trefwoorden zoekt dan doorzoek je de beschrijvingen die door andere sites gebruikt worden om te linken naar de site in kwestie.

Dat is inmiddels voor 350 miljoen sites gedaan en dat is natuurlijk maar een (heel) klein deel van de 273 miljard pagina’s die in de volledige Wayback Machine zijn opgenomen. Desalniettemin kun je nu dus op trefwoorden zoeken naar in de Wayback Machine gearchiveerde sites.

wayback machine
Zoeken op ‘vakblog’ levert vervolgens een aantal sites op waarbij andere sites dus de term vakblog gebruikt hebben om te beschrijven waar die sites over gaan. Op nummer 2 staat een redirect URL die ik soms gebruik. Die is slechts 8 keer opgenomen in de Wayback Machine (sinds 2014 toen ik die URL registreerde) en bevat ook maar 2 weburl’s (www.vakblog.info en vakblog.info) en geen enkele afbeelding-, audio- of filmurl.

Op de derde plek staat de homepagina van mijn blog waar echter de naam Vakblog zelf niet in de URL staat omdat die in een subfolder staat. Er wordt echter wel naar verwezen onder die naam en daarom wordt het gevonden. Daar zijn meer dan 3000 URL’s van opgenomen maar ook ruim 1600 afbeeldingenurl’s. In totaal zijn die pagina’s meer dan 11.000 keer bezocht en gearchiveerd door de Wayback Machine.

Hopelijk zal in de toekomst ook de inhoud van alle honderden miljarden sites/pagina’s zelf geïndexeerd kunnen worden maar dit is ook nu al een hele interessante stap naar een compleet gearchiveerd internet waar nooit informatie meer in verloren kan gaan. Het is waar elke informatiespecialist van droomt, toch?

Meer informatie? Defining Web pages, Web sites and Web captures (via Internet Archive) / FAQs for some new features available in the Beta Wayback Machine (via Internet Archive) / Wat heeft The Internet Archive eigenlijk allemaal gedaan de afgelopen 20 jaar?

#

Raymond Snijders

Sinds 1995 houdt Raymond zich bezig met de combinatie van ICT, bibliotheken en onderwijs vanuit het perspectief van (vooral) de bibliotheek en informatievoorziening. Thans is hij werkzaam bij de Hogeschool Windesheim als senior informatiebemiddelaar en houdt hij zich bezig met de digitale bibliotheek, contentlicenties, ebooks en auteursrecht. Over deze onderwerpen en de impact die ze (kunnen) hebben op het onderwijs en bibliotheken blogt hij sinds 2006 op zijn Vakblog. In 2013 won hij de Victorine van Schaickprijs voor zijn blog.

Comments (7) Write a comment

Leave a Reply

Required fields are marked *.


This site uses Akismet to reduce spam. Learn how your comment data is processed.

  • © 2006- 2019 Vakblog – werken met informatie
    Aangedreven door WordPress en duizenden liters koffie // Theme: Tatami van Elmastudio
Top