Over linkrot, het archiveren van webpagina’s en het maken van permanent werkende links

Met een linkje verwijzen naar een webpagina. Het is de normaalste zaak van de wereld maar het is helaas niet vanzelfsprekend dat die link na verloop van tijd nog steeds functioneert. Soms is de inhoud op die URL veranderd (geactualiseerd) maar nog vaker is de pagina – om wat voor reden dan ook – verdwenen en krijg je de bekende ‘404 Not Found’ foutmelding. Met behulp van de Wayback Machine, archive.is of Perma.cc kun je echter ‘snapshots’ maken van webpagina’s zoals ze op dat moment zijn en permanent linken naar die gearchiveerde versies zodat je nooit met kapotte links te maken krijgt.

Linkrot

Het fenomeen waarbij na enige tijd links op een internetpagina niet meer werken heet linkrot. Hoewel nooit te voorspellen is of een pagina waar naar gelinkt wordt in de toekomst zal verdwijnen, is de kans groter bij (kleinere) blogs, sites van stichtingen of verenigingen en naar mate een pagina ‘dieper’ in een website zit. Een site als windesheim.nl zal wel correct blijven verwijzen naar de startpagina van de hogeschool maar of de voorlichtingspagina over de lerarenopleiding Geschiedenis over vijf jaar nog steeds te raadplegen is op http://www.windesheim.nl/werk-en-studie/opleidingen-en-cursussen/educatie/lerarenopleidingen/lerarenopleiding-geschiedenis-afstandsleren-al/ is maar de vraag.

Aan de andere kant zal juist een startpagina frequent van inhoud veranderen en als je dus wilt verwijzen naar een tekst of afbeelding die vandaag op een site staat maar wellicht volgende week niet meer, dan heb je nog steeds te maken met een vorm van linkrot.

Om ervoor te zorgen dat je geen doodlopende links krijgt of dat je zeker kunt zijn dat de inhoud van een webpagina wordt getoond zoals die was op het moment dat je er naar linkte, kun je met behulp van enkele webarchiveringsdiensten een snapshot maken van die pagina. Dat is een gearchiveerde versie waar je dan vervolgens naar toe kunt linken en die permanent beschikbaar blijft. Tenminste, zolang de webarchiveringsdienst blijft bestaan natuurlijk.

Wayback Machine

wayback machine savepagenow linkrot

Waarschijnlijk is de Wayback Machine de bekendste van alle archiveringsdiensten. Het maakt onderdeel uit van The Internet Archive die als doel heeft om zo’n beetje het hele internet te archiveren en het archiveert dagelijks miljoenen webpagina’s. Dat doen ze op eigen houtje maar op de voorpagina van de site kun je ook een URL invullen bij Save Page Now om handmatig een snapshot te maken.

Je krijgt dan meteen het eindresultaat te zien – inclusief een navigatiebalk bovenaan om eventueel andere versies van die pagina terug te kunnen kijken – en je kunt de link gebruiken in bijvoorbeeld je blogpost. Als voorbeeld heb ik een review van de Kindle Oasis ereader gebruikt door Ars Technica. Als de site over een paar jaar niet meer zou bestaan, dan is de review nog steeds te lezen via de Wayback Machine. En heb ik geen dode link op mijn blog.

Archive.is

archive_is
Archive.is bestaat sinds december 2012 en lijkt het werk van één persoon te zijn. Als je daar de URL invult dan zie je hoe alle vereiste bestanden binnengehaald worden en krijg je vervolgens het gearchiveerde eindresultaat te zien. Er zitten wel een paar belangrijke beperkingen aan want hele grote afbeeldingen (groter dan 1024×758) haalt archive.is niet binnen en het is ook niet in staat om de inhoud van pagina’s te archiveren als ze dynamisch (door Flash) geladen worden. Zoals dus de review van de Kindle Oasis op Ars Technica. Ik heb mijn eigen artikel over watermerkbeveiliging vervolgens geprobeerd en dat gaat wel prima (ook al ontbreekt de rechter sidebar).

Archive.is genereert ook hele mooie korte links (http://archive.is/rMMBX) die daarmee ook heel handig zijn in mailtjes of op papier om te verwijzen naar een webpagina. Het enige echte nadeel is dat je minder zeker kunt zijn dat deze dienst over vijf jaar nog bestaat.

Perma.cc

perma.cc linkrot

Linkrot op het internet is al vervelend genoeg maar in (wetenschappelijke) artikelen kan het leiden tot ‘reference rot‘: het niet meer beschikbaar zijn van informatie waar naar verwezen wordt in de artikelen. Het was reden voor de Harvard Law School Library om, samen met een groot aantal andere Amerikaanse universiteitsbibliotheken en partners, Perma.cc op te zetten.

Perma.cc maakt ook een snapshot van een webpagina en doet dit dus eigenlijk om ervoor te zorgen dat er een permanent werkende link ontstaat waar naar verwezen kan worden in artikelen. Het heeft geen enkel probleem met de Oasis review en ook deze dienst geeft je een handige korte URL terug (https://perma.cc/U6CZ-LEVC).

Door de focus op referenties en dus het academische gebruik van links is de dienst voor individuele eindgebruikers helaas wel beperkt. Een account voor Perma.cc is gratis maar individuele gebruikers kunnen slechts 10 ‘Perma Links’ per maand aanmaken en bewaren. Meld je je echter als (universiteits)bibliotheek, (wetenschappelijk) tijdschrift of rechtbank aan, dan kun je onbeperkt gebruik maken van Perma.cc.

Wanneer link je naar een gearchiveerde webpagina?

Moet je nou alle links op een site of blog gaan aanpassen zodat die verwijzen naar een gearchiveerde versie? Als je 100% zeker wilt weten dat alle links permanent blijven werken dan zou je dat kunnen overwegen. Voor WordPress (en Drupal) is er dan zelfs een handige plugin die automatisch snapshots maakt van alle links die je toevoegt. Het kost je wel flink wat opslagruimte op je server hoewel je in de plugin er ook voor kunt kiezen om de snapshots bij de Wayback Machine of Perma.cc op te slaan.

Zelf denk ik dat het lang niet altijd niet nodig is. Als je, zoals in mijn geval, veel linkt naar webdiensten dan maakt het niet veel uit of een link niet meer werkt. Als de webdienst zelf verdwenen is dan voegt een nog werkende link naar de voorpagina weinig meer toe. Kijk maar naar de allereerste link die ik hier op Vakblog plaatste naar de MsDewey zoekmachine. Of het artikel over het inmiddels verdwenen Topsy. Het is de reden waarom ik altijd screenshots plaats van webdiensten.

Ook als je linkt naar pagina’s van (grote) bedrijven of andere bekende websites is het mijns inziens niet nodig om die pagina’s te archiveren. Ik link bijvoorbeeld veel naar Wikipedia pagina’s en ik durf er wel op te vertrouwen dat die links niet zo snel onderhevig zullen zijn aan linkrot.

Maar als je deeplinkt naar een artikel of document dat van een minder bekende grote site afkomstig is, of als de inhoud van een webpagina essentieel is ter ondersteuning van je eigen artikel of tekst, dan zou je het zeker moeten overwegen om te linken naar een gearchiveerde versie die gegarandeerd beschikbaar blijft. Ik heb vorig jaar tientallen dode links moeten verwijderen van mijn blog waarvan ik nu dus spijt heb dat ik ze niet eerst heb toegevoegd aan één van de hierboven genoemde archiveringsdiensten.

En als je verwijst naar een pagina waar de inhoud periodiek van verandert – terwijl je eigenlijk wilt linken naar wat er op die pagina staat op het moment van schrijven – dan is het gebruik van zo’n dienst zelfs een must. Vanaf nu zal ik dat dus doen met o.a. de Bestseller60 lijst. Deze verandert elke week terwijl ik eigenlijk wil verwijzen naar de lijst van de week waarin ik de blogpost schrijf.

Hopelijk krijgen we, mede door het gebruiken van de Wayback Machine, archive.is en Perma.cc, steeds minder vaak die vervelende 404 melding. Die heb ik namelijk wel genoeg gezien.

@headerafbeelding via Pixabay met CC0-verklaring. Getipt door Frank Huysmans

#

Raymond Snijders

Sinds 1995 houdt Raymond zich bezig met de combinatie van ICT, bibliotheken en onderwijs vanuit het perspectief van (vooral) de bibliotheek en informatievoorziening. Thans is hij werkzaam bij de Hogeschool Windesheim als senior informatiebemiddelaar en houdt hij zich bezig met de digitale bibliotheek, contentlicenties, ebooks en auteursrecht. Over deze onderwerpen en de impact die ze (kunnen) hebben op het onderwijs en bibliotheken blogt hij sinds 2006 op zijn Vakblog. In 2013 won hij de Victorine van Schaickprijs voor zijn blog.

Comments (13) Write a comment

Leave a Reply

Required fields are marked *.


This site uses Akismet to reduce spam. Learn how your comment data is processed.

  • © 2006- 2019 Vakblog – werken met informatie
    Aangedreven door WordPress en duizenden liters koffie // Theme: Tatami van Elmastudio
Top