Over linkrot, het archiveren van webpagina’s en het maken van permanent werkende links

Met een linkje verwijzen naar een webpagina. Het is de normaalste zaak van de wereld maar het is helaas niet vanzelfsprekend dat die link na verloop van tijd nog steeds functioneert. Soms is de inhoud op die URL veranderd (geactualiseerd) maar nog vaker is de pagina – om wat voor reden dan ook – verdwenen en krijg je de bekende ‘404 Not Found’ foutmelding. Met behulp van de Wayback Machine, archive.is of Perma.cc kun je echter ‘snapshots’ maken van webpagina’s zoals ze op dat moment zijn en permanent linken naar die gearchiveerde versies zodat je nooit met kapotte links te maken krijgt.

Linkrot

Het fenomeen waarbij na enige tijd links op een internetpagina niet meer werken heet linkrot. Hoewel nooit te voorspellen is of een pagina waar naar gelinkt wordt in de toekomst zal verdwijnen, is de kans groter bij (kleinere) blogs, sites van stichtingen of verenigingen en naar mate een pagina ‘dieper’ in een website zit. Een site als windesheim.nl zal wel correct blijven verwijzen naar de startpagina van de hogeschool maar of de voorlichtingspagina over de lerarenopleiding Geschiedenis over vijf jaar nog steeds te raadplegen is op http://www.windesheim.nl/werk-en-studie/opleidingen-en-cursussen/educatie/lerarenopleidingen/lerarenopleiding-geschiedenis-afstandsleren-al/ is maar de vraag.

Aan de andere kant zal juist een startpagina frequent van inhoud veranderen en als je dus wilt verwijzen naar een tekst of afbeelding die vandaag op een site staat maar wellicht volgende week niet meer, dan heb je nog steeds te maken met een vorm van linkrot.

Om ervoor te zorgen dat je geen doodlopende links krijgt of dat je zeker kunt zijn dat de inhoud van een webpagina wordt getoond zoals die was op het moment dat je er naar linkte, kun je met behulp van enkele webarchiveringsdiensten een snapshot maken van die pagina. Dat is een gearchiveerde versie waar je dan vervolgens naar toe kunt linken en die permanent beschikbaar blijft. Tenminste, zolang de webarchiveringsdienst blijft bestaan natuurlijk.

Wayback Machine

wayback machine savepagenow linkrot

Waarschijnlijk is de Wayback Machine de bekendste van alle archiveringsdiensten. Het maakt onderdeel uit van The Internet Archive die als doel heeft om zo’n beetje het hele internet te archiveren en het archiveert dagelijks miljoenen webpagina’s. Dat doen ze op eigen houtje maar op de voorpagina van de site kun je ook een URL invullen bij Save Page Now om handmatig een snapshot te maken.

Je krijgt dan meteen het eindresultaat te zien – inclusief een navigatiebalk bovenaan om eventueel andere versies van die pagina terug te kunnen kijken – en je kunt de link gebruiken in bijvoorbeeld je blogpost. Als voorbeeld heb ik een review van de Kindle Oasis ereader gebruikt door Ars Technica. Als de site over een paar jaar niet meer zou bestaan, dan is de review nog steeds te lezen via de Wayback Machine. En heb ik geen dode link op mijn blog.

Archive.is

archive_is
Archive.is bestaat sinds december 2012 en lijkt het werk van één persoon te zijn. Als je daar de URL invult dan zie je hoe alle vereiste bestanden binnengehaald worden en krijg je vervolgens het gearchiveerde eindresultaat te zien. Er zitten wel een paar belangrijke beperkingen aan want hele grote afbeeldingen (groter dan 1024×758) haalt archive.is niet binnen en het is ook niet in staat om de inhoud van pagina’s te archiveren als ze dynamisch (door Flash) geladen worden. Zoals dus de review van de Kindle Oasis op Ars Technica. Ik heb mijn eigen artikel over watermerkbeveiliging vervolgens geprobeerd en dat gaat wel prima (ook al ontbreekt de rechter sidebar).

Archive.is genereert ook hele mooie korte links (http://archive.is/rMMBX) die daarmee ook heel handig zijn in mailtjes of op papier om te verwijzen naar een webpagina. Het enige echte nadeel is dat je minder zeker kunt zijn dat deze dienst over vijf jaar nog bestaat.

Perma.cc

perma.cc linkrot

Linkrot op het internet is al vervelend genoeg maar in (wetenschappelijke) artikelen kan het leiden tot ‘reference rot‘: het niet meer beschikbaar zijn van informatie waar naar verwezen wordt in de artikelen. Het was reden voor de Harvard Law School Library om, samen met een groot aantal andere Amerikaanse universiteitsbibliotheken en partners, Perma.cc op te zetten.

Perma.cc maakt ook een snapshot van een webpagina en doet dit dus eigenlijk om ervoor te zorgen dat er een permanent werkende link ontstaat waar naar verwezen kan worden in artikelen. Het heeft geen enkel probleem met de Oasis review en ook deze dienst geeft je een handige korte URL terug (https://perma.cc/U6CZ-LEVC).

Door de focus op referenties en dus het academische gebruik van links is de dienst voor individuele eindgebruikers helaas wel beperkt. Een account voor Perma.cc is gratis maar individuele gebruikers kunnen slechts 10 ‘Perma Links’ per maand aanmaken en bewaren. Meld je je echter als (universiteits)bibliotheek, (wetenschappelijk) tijdschrift of rechtbank aan, dan kun je onbeperkt gebruik maken van Perma.cc.

Wanneer link je naar een gearchiveerde webpagina?

Moet je nou alle links op een site of blog gaan aanpassen zodat die verwijzen naar een gearchiveerde versie? Als je 100% zeker wilt weten dat alle links permanent blijven werken dan zou je dat kunnen overwegen. Voor WordPress (en Drupal) is er dan zelfs een handige plugin die automatisch snapshots maakt van alle links die je toevoegt. Het kost je wel flink wat opslagruimte op je server hoewel je in de plugin er ook voor kunt kiezen om de snapshots bij de Wayback Machine of Perma.cc op te slaan.

Zelf denk ik dat het lang niet altijd niet nodig is. Als je, zoals in mijn geval, veel linkt naar webdiensten dan maakt het niet veel uit of een link niet meer werkt. Als de webdienst zelf verdwenen is dan voegt een nog werkende link naar de voorpagina weinig meer toe. Kijk maar naar de allereerste link die ik hier op Vakblog plaatste naar de MsDewey zoekmachine. Of het artikel over het inmiddels verdwenen Topsy. Het is de reden waarom ik altijd screenshots plaats van webdiensten.

Ook als je linkt naar pagina’s van (grote) bedrijven of andere bekende websites is het mijns inziens niet nodig om die pagina’s te archiveren. Ik link bijvoorbeeld veel naar Wikipedia pagina’s en ik durf er wel op te vertrouwen dat die links niet zo snel onderhevig zullen zijn aan linkrot.

Maar als je deeplinkt naar een artikel of document dat van een minder bekende grote site afkomstig is, of als de inhoud van een webpagina essentieel is ter ondersteuning van je eigen artikel of tekst, dan zou je het zeker moeten overwegen om te linken naar een gearchiveerde versie die gegarandeerd beschikbaar blijft. Ik heb vorig jaar tientallen dode links moeten verwijderen van mijn blog waarvan ik nu dus spijt heb dat ik ze niet eerst heb toegevoegd aan één van de hierboven genoemde archiveringsdiensten.

En als je verwijst naar een pagina waar de inhoud periodiek van verandert – terwijl je eigenlijk wilt linken naar wat er op die pagina staat op het moment van schrijven – dan is het gebruik van zo’n dienst zelfs een must. Vanaf nu zal ik dat dus doen met o.a. de Bestseller60 lijst. Deze verandert elke week terwijl ik eigenlijk wil verwijzen naar de lijst van de week waarin ik de blogpost schrijf.

Hopelijk krijgen we, mede door het gebruiken van de Wayback Machine, archive.is en Perma.cc, steeds minder vaak die vervelende 404 melding. Die heb ik namelijk wel genoeg gezien.

@headerafbeelding via Pixabay met CC0-verklaring. Getipt door Frank Huysmans

#

Lijstjesmaand: Vakblog statistieken van 2015

Ook al keek ik de afgelopen jaren op de laatste dag van het jaar telkens terug op het jaar dat was, dit jaar heb ik dat inhoudelijk al gedaan in de blogpost over de negende verjaardag van dit blog. En dus beperk ik me dit jaar tot enkele Vakblog statistieken als views, bezoekersaantallen en meestgelezen artikelen naar aanleiding van het WordPress/Jetpack jaarrapport dat ze elk jaar weer versturen.

Tot “ontzetting” van sommige bloggers kijk ik slechts af en toe naar de statistieken van WordPress en Google Analytics. Niet dat ik niet van cijfertjes houd – integendeel – maar als je niet aan advertorials, affliate links of andere commerciële activiteiten doet dan maakt het ook niet uit of je honderd, duizend of tienduizend bezoekers elke maand hebt. Ik vind het daarentegen wel heel interessant om te zien hoe (en of) mijn artikelen gevonden worden via zoekmachines en in welke mate je daar invloed op kunt uitoefenen. Dat zouden de meeste mensen SEO noemen maar ik vind het gewoon boeiend hoe dit soort informatie- en zoeksystemen werken.

vakblog statistieken
En ergens lijk ik daar toch wel succesvol in te zijn geworden :) Eind 2009 wisselde ik van CMS voor Vakblog (van Pivot naar WordPress) en ik heb daarom geen idee hoe veel (weinig) bezoekers ik de eerste drie jaren op mijn blog mocht verwelkomen. Pas in 2013 hield WordPress de bezoekersaantallen (correct) bij en dus blijven views de enige constante bron van vergelijking met de voorgaande jaren.

In 2010 was ik verbaasd en vereerd dat ik in een jaar tijd maar liefst 67.000 views had weten te behalen. Meer dan 1000 per week! Zoals je in de bovenstaande grafiek kunt zien is die verbazing alleen maar toegenomen. In 2011 moest ik mezelf knijpen omdat ik niet kon geloven dat ik met 89.000 views ruim 30% was gegroeid. Ik ben daarna maar opgehouden met knijpen omdat ik anders één grote blauwe plek was geworden: 170K views in 2012, 201K in 2013 en een absurde sprong naar 345K in 2014.

Nu kan ik alleen maar vol ongeloof in de grafiek aflezen dat 2015 goed was voor meer dan een half miljoen views. Een half miljoen. Jemig.

vakblog statistieken referrals_2015Het is wel duidelijk waar ik die aan te danken heb want maar liefst 70% van alle views komen via de zoekmachines binnen. Google om precies te zijn want die paar duizend views via Bing en Yahoo vallen weg tegen wat Google doorstuurt.

Dat Vakblog het goed doet in Google merk ik natuurlijk aan veel meer dan die statistieken. Een relatief extreem klein deel van de 1641 blogposts op dit blog trekken de bezoekers aan die googelen op zoektermen als “youtube video’s downloaden”, “drm verwijderen”, “calibre”, “elly’s choice”, “facebook zoeken” en “Netflix kijken”. Vooral in de artikelen over Calibre en de Kobo ereaders worden regelmatig vragen achtergelaten in de comments die ik dan ook weer probeer te beantwoorden.

Ik zie het ook (al meerdere) jaren terug in het overzicht van de meestgelezen blogposts. Die veranderen namelijk bijna niet en dus vind je daar op de bovenste plek de blogpost terug over de sites met gratis (legale) ebooks en staan er vier Calibre blogposts en twee Netflix blogposts in de top 10. Slechts 1 van die blogposts – over Netflix en VPN diensten – komt uit 2015, de rest zijn allemaal uit de voorgaande jaren.

De wet van de kleine getallen

Leuk natuurlijk, dat soort enorme getallen die via Google in mijn statistieken opduiken maar nog interessanter zijn de bezoekers die rechtstreeks op mijn blog komen via Twitter of Facebook waar ik sinds enkele jaren ook trouw alle nieuwe blogposts meld. Die komen namelijk niet voor de oude blogposts maar juist voor de nieuwe. Hier waren dit jaar de boekenplogs populair, de bibliotheek/ebooks blogposts en – af en toe – een auteursrecht/open access blogpost.

Het lijkt er op dat ik een aardige mix gevonden heb van onderwerpen die Google (en vooral de gebruikers van de zoekmachine) interessant vindt en onderwerpen die mensen ook daadwerkelijk terug laten komen naar dit blog.

En Google Analytics dan?

Google Analytics meet in elk geval de pageviews wat behoudender volgens mij. Daar waar WordPress in 2015 502K pageviews van 306K (unieke) bezoekers laat zien, toont Google Analytics namelijk 475K pageviews van (eveneens) 306K bezoekers. Waar het exacte verschil qua views in zit weet ik niet maar ik heb hoe dan ook niets te klagen.

Lies, damn lies and statistics

Vooral met Google Analytics kun je je helemaal blindstaren op cijfers, percentages en grafieken voor zo’n beetje alles wat mogelijkerwijs maar gemeten kan worden op een blog. Uiteindelijk meet ik het ‘succes’ van mijn blog echter af aan het plezier dat ik er zelf in heb en dat wordt voor een belangrijk deel bepaald door de reacties die ik krijg. Zowel op Vakblog als in Het Echte Leven was 2015 wat dat betreft een topjaar. Ongeacht of er wel of niet enorme aantallen views en bezoekers in de statistieken hadden gestaan.

Op naar 2016!

#

Facebook Authorship instellen voor je WordPress blog

facebook authorship
Ongeacht wat je persoonlijk vindt van Facebook, het is indrukwekkend hoe het gigantische sociale netwerk zich blijft doorontwikkelen. Facebook heeft nu zijn pijlen gericht op het aanbieden van nieuws(artikelen) en andere content van derden. Inmiddels bieden diverse Amerikaanse kranten en tijdschriften hun content aan via Facebook en zorgt Facebook voor meer duidelijkheid over wie verantwoordelijk is voor welke content.

Met Facebook Authorship geeft Facebook eenvoudig de mogelijkheid aan alle aanbieders van content om met behulp van meegestuurde HTML code de auteur (profielpagina) te vermelden zodat je bij alle via Facebook gedeelde artikelen ziet door wie die geschreven is. Dat lijkt erg veel op wat Google in het verleden deed met Google Authorship – waarbij artikelen gelinkt werden aan Google+ profielen –  maar waar Google hun Authorship idee heeft losgelaten gaat Facebook er nu wel vol voor. Iedereen kan nu zijn of haar auteurschap claimen voor wat ze via Facebook delen.

Wat heb je aan Facebook Authorship?

Facebook legt steeds meer de nadruk op het lezen van artikelen vanuit je tijdlijn en steeds meer mensen doen dat dus ook. Ik merk zelf dat het afgelopen jaar veel meer lezers via Facebook hun weg vinden naar mijn blog en dan is het handig om dat ook zo gemakkelijk mogelijk te maken. Niet alleen linkjes delen naar nieuwe blogposts op Facebook maar tevens actief verwijzen naar alle andere blogposts die je eerder geschreven hebt en nog gaat schrijven! En wat hebben al die blogposts met elkaar gemeen? Dat ze van jou zijn natuurlijk.

Als jij een blogpost deelt via Facebook dan wordt dat op een speciale manier getoond. Er wordt een afbeelding getoond (mits je blogpost er eentje bevat), de titel van de blogpost en een beschrijving (danwel de eerste paar regels van je blogpost). Daaronder staat nog een URL van de site waar het gedeelde artikel vandaan komt.

facebook authorship vergeleken
Links zie je een gedeelde blogpost van mij staan zonder dat Facebook Authorship ingesteld is. Rechts zie je bij een andere blogpost dat er iets bij is gekomen: er staat nu vermeld dat het door Vakblog geschreven is en je kunt doorklikken om op de Facebookpagina van Vakblog te komen voor meer blogposts. Als je met de muis over de auteurslink gaat kun je ook meteen de pagina volgen zodat je via Facebook alle nieuwe blogposts te zien krijgt.

Heb je geen aparte Facebookpagina voor je blog dan kun je vanzelfsprekend ook verwijzen naar je persoonlijke profielpagina. Dat heeft het voordeel dat je naam er bij komt te staan – wel zo leuk – maar je moet er wel rekening mee houden dat je daarmee dus je persoonlijke Facebookpagina zichtbaar(der) maakt. Gebruik je die alleen voor vrienden en familie, dan is het verstandiger om die profielpagina niet te koppelen aan je via Facebook gedeelde blogposts.Tenzij je alle lezers als vrienden beschouwt natuurlijk.

Hoe koppel je Facebook Authorship aan je WordPress blog?

Om Facebook Authorship in te stellen op je WordPress blog heb je twee dingen nodig:

  1. De URL van je Facebookprofiel of Facebookpagina die als auteur vermeld moet gaan worden. Is het een afgeschermd profiel? Dan kunnen anderen er niet op doorklikken of je pagina volgen;
  2. Een self-hosted WordPress blog waar je de Yoast SEO plugin voor kunt installeren en activeren. Heb je deze niet nog geïnstalleerd? Doe dat dan eerst!

Je kunt Facebook Authorship ook instellen op een WordPress.com blog door in je header template de regel <meta property=”article:author” content=“URL van Facebookpagina” /> op te nemen maar in het stappenplan hieronder ga ik er van uit dat je de Yoast SEO plugin geïnstalleerd hebt op een self-hosted WordPress blog.

Stap 1. Configureren van de Yoast SEO plugin

Ga in WordPress admin in het linkermenu naar SEO en dan het submenu Social. Op het tweede tabblad zie je de Facebook instellingen en daar vink je de optie Add Open Graph meta data aan. Dat zorgt er voor dat de metadata die Facebook herkent en gebruikt ook wordt toegevoegd aan je blogposts.

facebook authorship yoast social
Je kunt ook optioneel de Frontpage settings invullen die door Facebook gebruikt worden als de URL van je blog gedeeld wordt op Facebook. Je kunt dan een logo (image url) opgeven hier bijvoorbeeld met een titel en beschrijving. Voor Facebook Authorship is het niet nodig.

Stap 2. Je Facebookprofiel of pagina URL toevoegen aan je WordPress gebruikersprofiel

Goed, de metadata is toegevoegd maar om de goede auteursinformatie mee te geven moet je gebruikersprofiel in WordPress worden gekoppeld aan de URL van je Facebookprofiel of pagina. Dat doe je door in WordPress admin naar Gebruikers (Users) en dan Je profiel (Your Profile) te gaan. Hier kun je de Facebook URL toevoegen.

facebook authorship wordpress userprofile
Sla de gewijzigde instellingen op en je bent klaar!

Stap 3 (optioneel) Controleren of het werkt m.b.v. de Facebook debugger

Als je bovenstaande stappen hebt uitgevoerd zullen vanaf dat moment alle blogposts die je via Facebook deelt worden voorzien van een auteur/link. Dat gaat niet met terugwerkende kracht voor de artikelen die je al eerder hebt gedeeld maar je kunt Facebook “dwingen” om opnieuw alle metadata op te halen voor al eerder gedeelde links. Met behulp van de debugger kun je voor alle URL’s van je blog controleren welke metadata door Facebook gezien wordt, hoe een gedeelde blogpost getoond wordt maar ook al eerder gedeelde blogposts alsnog voorzien van de auteur/link.

facebook authorship debugger
Vul een URL van één van je blogposts in en klik op Debug. Je krijgt dan te zien of Facebook de URL al eerder gezien heeft (inclusief het aantal likes en het aantal keren dat het gedeeld is) maar ook een lijst met tags die Facebook aangetroffen heeft. Als je Facebook Authorship goed hebt ingesteld op je blog, dan zie je daar ook <meta property=”article:author” content=“URL van je Facebookpagina” /> tussen staan.

facebook authorship debugger
De knop Debug onder de URL is nu vervangen door twee nieuwe knoppen. Als je op Fetch new scrape information klikt dan wordt de nieuwe metadata – inclusief de auteursgegevens – alsnog gebruikt indien je de blogpost al eerder gedeeld hebt.

facebook authorship debugger
Heb je al tientallen (of meer) blogposts eerder gedeeld op Facebook? Dan zul je ze één voor één door de debugger moeten halen en laten voorzien van de nieuwe metadata.

En zo ziet het eindresultaat er uit:

#

  • © 2006- 2019 Vakblog – werken met informatie
    Aangedreven door WordPress en duizenden liters koffie // Theme: Tatami van Elmastudio
Top