Archiveren van tweets in een Google Spreadsheet met TAGS [update]

TAGS 5
Vorig jaar schreef ik een blogpost om tweets te archiveren (en te analyseren) met behulp van TAGS (Twitter Archiving Google Spreadsheet). Die heb ik gebruikt om verslagen te maken van de twitterchat #blogpraat maar na een tijdje werd het meer een backup tool omdat we Tweetreports gebruikten om het verslag te maken.

Een site waar je – zelfs tegen betaling – ook eenvoudig en snel goede verslagen kunt genereren van een twitterchat blijkt echter nog steeds een zeldzaamheid te blijven. De site van Tweetreports werkt al een maand niet en dus wilde ik terugvallen op TAGS. Maar ja, die werkte niet meer nadat in maart van dit jaar wijzigingen zijn doorgevoerd bij Twitter. Om de nieuwe API 1.1 te gebruiken moet er nu altijd geauthenticeerd worden via het OAuth protocol. Dat ‘applicatie X vraagt toestemming om gebruik te maken van je Twitter account’ scherm dat je ongetwijfeld wel eens tegengekomen bent.

Gelukkig wordt TAGS actief bijgewerkt door zijn maker en was er een nieuwe versie beschikbaar: TAGS 5.

Hoe gebruik je TAGS nu?

Ik ben met een nieuw archief begonnen en heb dus niet geprobeerd om mijn oude TAGS werkend te krijgen. Er staat wel iets hierover op de site van de maker maar voor mij was dat geen vereiste.

  • De recentste versie van TAGS kun je kopieren naar je eigen Google Drive door hier te klikken. Geef het een naam naar keuze als de standaard naam je niet bevalt. TAGS neemt je door de instructies heen dus je hoeft eigenlijk alleen maar het stappenplan in de spreadsheet zelf te volgen;
  • De eerste keer moet je op Enable custom menu klikken om het script te authenticeren, gevolgd door een twee keer klikken om twee nieuwe menu opties erbij te krijgen, TAGS en TAGS Advanced. Je ziet ze in bovenstaande schermafdruk ook staan;
  • Ga onder de menu optie TAGS naar Twitter API authentication om daar het proces te starten een “applicatie” aan te maken bij Twitter die toegang mag krijgen tot jouw Twitter account;
  • Een nieuwe app kun je aanmaken op dev.twitter.com. Daar log je in met je Twitter inloggevens om vervolgens een eenvoudig invulscherm te krijgen voor het aanmaken van een app. Geef het een naam naar keuze, vul een omschrijving en (willekeurige) website in en zorg ervoor dat bij de callback URL https://spreadsheets.google.com/macros/ komt te staan. Klik op ‘Submit’ om de app aan te maken;
  • In het vervolgscherm kun je je app verder configureren maar het enige wat we nodig hebben zijn de Consumer Key en de Consumer Secret Key voor het koppelen van TAGS aan de zojuist gemaakte app. Vul die vervolgens ook in als TAGS er naar vraagt;
  • Als derde stap vul je de zoekterm in waarop gezocht moet worden (#blogpraat in mijn geval);
  • Klik in het menu TAGS op Run Now! om de zoekactie uit te voeren. De gevonden tweets worden automatisch geïmporteerd in het tabblad Archive.

TAGS advanced

Bij de Advanced settings kun je een specifieke periode opgeven waarin gezocht moet worden. Default doorzoekt het script zover mogelijk terug (iets meer dan een week). Bij Continuous/paged kun je tussen die twee kiezen om ofwel alle tweets in 1 Archive tabblad te krijgen danwel dat TAGS voor elke keer een nieuw tabblad met gevonden tweets aanmaakt. Aangezien een twitterchat wekelijks is werkt paged voor mij beter.

Bij Follower count filter kun je spammers al een (beetje) filteren door aan te geven dat een twitteraar minimaal een instelbaar aantal volgers moet hebben. Ik gebruik dat zelf niet omdat ik niet per ongeluk een beginnende twitteraar wil filteren en het is relatief weinig moeite om achteraf spamtweets handmatig te verwijderen.

Number of tweets is het maximaal aantal tweets dat opgehaald wordt. Standaard staat dat op 1500 en met zo’n 500 tot 700 tweets per week is dat prima. Je kunt tot 18.000 gaan maar de toelichting waarschuwt dat je dan wel eens problemen kunt gaan krijgen omdat het script dan een time out kan krijgen. Ik heb dat zelf niet geprobeerd.

In het Archive tabblad staan nu alle tweets. Dit is een reguliere spreadsheet dus hier kun je ook in bewerken. Ik exporteer zelf altijd het tabblad naar een Excel document toe en bewerk het daar door spamtweets te verwijderen en een aantal (onnodige) kolommen te verwijderen.

Bij Summary krijg je mooie statistieken te zien over de tweets in je Archive. Top tweeters, aantallen tweets, retweets, getweete links en nog veel meer. In het tabblad Dashboard krijg vervolgens je enkele van die statistieken ook nog als grafieken te zien samen met een lijstje van de meest geretweete tweets de afgelopen 24 uur.

Als je alle tweets alleen archiveert in TAGS dan kun je met File -> Publish to the web je twitterarchief ook publiceren als webpagina. Dat archief kun je vervolgens ook nog automatisch laten bijwerken met nieuwe tweets door met TAGS -> Update archive every hour het script elk uur naar nieuwe tweets te laten zoeken.

#

Tweet Nest werkt weer en kan nu ook je Twitter archief importeren

tweet nest

Dat was even balen vorige maand. Twitter schakelde op 10 juni de oude API uit en hoewel ik daar rekening mee gehouden had, vergat ik dat ook mijn eigen archief van tweets daar van afhankelijk was. Ruim 2 jaar geleden heb ik daarvoor Tweet Nest op mijn server gezet en sinds die tijd zorgt een scriptje ervoor dat periodiek nieuwe tweets worden toegevoegd aan dat archief. En die werkte dus niet meer na 10 juni.

Tweet Nest is de afgelopen jaren nauwelijks voorzien van updates dus het was even afwachten of er wel een nieuwe versie zou komen die netjes kon authenticeren bij de nieuwe API 1.1. En dat terwijl de teller liep want je kunt alleen de laatste 3200 tweets ophalen bij Twitter dus het zou geen maanden moeten duren bij mij.

Gelukkig heeft de programmeur van Tweet Nest – met hulp – een nieuwe versie gemaakt voordat mijn eigen deadline voorbij was. En behalve dat deze zorgt voor OAuth authenticatie bij de nieuwe Twitter API voegt de nieuwe versie ook de functionaliteit toe om de tweets uit je (officiële) Twitter archief kunt importeren. Handig want ik miste de ca. 5000 tweets die ik tussen juli 2007 en september 2010 geproduceerd heb in mijn Tweet Nest archief.

Upgraden
De nieuwe versie in gebruik nemen is een kwestie van downloaden en uitpakken om daarna alle bestanden en mappen – op inc/config.php na – te uploaden (en te overschrijven) naar je bestaande Tweet Nest installatie.

Om de nieuwe OAuth authenticatie te regelen moet je een “applicatie” aanmaken waarmee Tweet Nest kan autoriseren bij Twitter.

  • Een nieuwe app kun je aanmaken op dev.twitter.com. Daar log je in met je Twitter inlogggevens om vervolgens een eenvoudig invulscherm te krijgen voor het aanmaken van een app. Geef het een zinnige naam naar keuze en vul een omschrijving in. Zorg ervoor dat bij zowel de website als bij de callback URL de URL komt te staan waar je eigen Tweet Nest archief te vinden is. Klik op ‘Submit’ om de app aan te maken;
  • In het vervolgscherm kun je je app verder configureren maar het enige wat we nodig hebben zijn de Consumer Key en de Consumer Secret Key voor het autoriseren van Tweet Nest.
  • En dat doe je door authorize.php te openen – te vinden in de Tweet Nest folder op de server – in je browser. Deze pagina vraagt om de Consumer Key en de Consumer Secret Key waarna je de gemaakte applicatie toegang kunt verlenen tot je Twitter account.

Alles zou het vervolgens weer moeten doen. Tenminste, dat deed het bij mij :)

Importeren van je ontbrekende tweets
Als je, net als ik, geen volledig archief had in Tweet Nest, dan kun je die nu aanvullen met de tweets uit het te downloaden Twitterarchief op je profielpagina.

  • Vraag dit archief aan op je profielpagina, wacht 10 minuten op de mail met de downloadlink, download je archief en pak het uit in een map op je harde schijf;
  • In de map data/js/tweets vind je per maand een .js bestand met alle tweets van die maand. Upload de .js bestanden van alle maanden die ontbreken in Tweet Nest naar de map archive op je server. In mijn geval waren dat dus de 2007_07.js t/m de 2010_09.js bestanden;
  • Open maintenance/loadarchive.php in je browser en wacht geduldig tot alle tweets geïmporteerd zijn. Het ging bij mijn 5000 tweets in één keer goed maar als je er meer dan 10.000 hebt kan het script vastlopen. In dat geval gewoon nog een keer dezelfde pagina openen in je browser.

Het enige irritante is dat bij het importeren niet (goed?) gekeken wordt naar al bestaande tweets. De bijna 300 tweets van september 2010 die ik al wel in mijn archief had zitten, heb ik er nu dubbel in zitten. Ik kijk komende vakantie nog wel even of ik ze handmatig uit de database kan verwijderen maar voor nu ben ik blij niet alleen weer een werkend Twitterarchief te hebben maar het ook (over)compleet te hebben.

#

Archiveren van webpagina’s met PDF, Evernote en MAFF

Hoewel ik meestal voldoende heb aan een bookmark om interessante sites te bewaren voor later, is dat eigenlijk vooral geschikt om ze tot enkele maanden daarna nog eens te kunnen nalezen of raadplegen. Als ik echter bij de wat oudere bookmarks in mijn browser (of delicious) kijk, dan is er al redelijk snel sprake van link rot: niet meer werkende links. Websites die verdwenen zijn, van domein zijn veranderd, die een grote schoonmaak in hun archieven gehouden hebben of die hun content nu achter een betaalmuur gezet hebben.

Ook al heb je bij bijna alle nieuws-, informatieve en wetenschappelijke websites tegenwoordig wel de beschikking over permalinks die in ieder geval een vaste en stabiele link geven naar de content, het is geen garantie dat je volgende maand of volgend jaar nog steeds de informatie op webpagina’s kunt raadplegen. Tel daar bij op dat het taggen van bookmarks -zodat je ook nog weet wat voor interessante informatie op die site stond- soms meer werk is dan eenvoudigweg de hele pagina te bewaren en dan heb je goede redenen om eens te kijken hoe nou het makkelijkste volledig webpagina’s bewaard kunnen worden.

PDF
Vroeger printte ik webpagina’s allemaal uit maar daar kun je natuurlijk tegenwoordig niet meer mee aankomen. Alternatief voor het printen is het installeren van een PDF printer waarmee je webpagina’s ‘uitprint’ naar PDF toe. Zelf heb ik daar jaren Adobe Acrobat voor gebruikt maar er zijn ook diverse gratis PDF programma’s beschikbaar waarbij je PDF’s kunt maken vanuit een browser. In Acrobat kun je zelfs hele sites importeren en de PDF’s zijn allemaal goed te doorzoeken aangezien zo’n beetje alle zoektools het formaat ondersteunen. Het nadeel van PDF is dat het uiteindelijk een papiergebaseerd iets is. Het is een leesbaar digitaal printje en dat betekent dat je op sites alle (ongewenste) opmaak mee krijgt zoals advertenties, menu’s enz. Ook werken niet alle links meer goed vanuit een PDF en zullen videobestanden genegeerd worden. Het is echter nog steeds beter dan kilo’s papier uit je printer laten komen.

Evernote
Je hebt meerdere programma’s die met zogenaamde webclippers selecties van (of hele) webpagina’s kunnen importeren maar mijn favoriet is Evernote. Je selecteert op een pagina wat je wil bewaren en het wordt meteen geïmporteerd in een nieuwe notitie in Evernote. De opmaak blijft behouden, afbeeldingen gaan netjes mee en het is natuurlijk gelijk volledig doorzoekbaar in Evernote zelf. Voor hele pagina’s gebruik ik meestal Evernote Clearly aangezien je hier juist alle opmaak, advertenties, menu’s enz met 1 druk op de knop verwijdert zodat je alleen de tekst (en afbeeldingen) overhoudt die je wilt lezen en bewaren. Uiteindelijk is Evernote echter vooral bedoeld om (stukken) informatie te bewaren die op webpagina’s te vinden is voor later gebruik, niet de hele webpagina zelf.

MAFF
Soms wil ik echter wel webpagina’s 1 op 1 archiveren zoals ze op dat moment zijn. Omdat ik juist ook de layout wil bewaren of omdat de koppeling met de precieze datum interessant is (nieuws op een specifieke dag). Of omdat ik alle afbeeldingen op 1 pagina in 1x keer wil bewaren.

In Internet Explorer kun je er dan voor kiezen om een pagina op te slaan in een Web Archive formaat (mht). Dat is een containerbestand waarin dan alle html, css, scriptjes en afbeeldingen opgeslagen worden zodat je later de pagina opnieuw kunt bekijken met precies dezelfde opmaak. Deze bestanden zijn normaliter alleen te maken en te openen in Internet Explorer maar met extensions kun je ze ook in andere browsers gebruiken.

De Mozilla Archive Format extension zorgt niet alleen voor ondersteuning van mht bestanden in Firefox maar voegt daar zijn eigen webarchief formaat aan toe met MAFF. MAFF lijkt op het MHT formaat maar heeft als voordeel dat het een open standaard is dat gebaseerd is op ZIP. Niet alleen dat, ook video en audio die in een pagina opgenomen is wordt opgeslagen in het archiefbestand en bij het openen van een MAFF bestand krijg je keurig de titel van de pagina te zien en de datum waarop dat archiefbestand is aangemaakt.

Na installatie van de extension heb je wat meer opties om pagina’s op te slaan in het Firefox menu. Zo kun je de huidige pagina opslaan als MHT of MAFF maar ook (een selectie van) alle openstaande tabs in 1 archiefbestand bewaren.

Ideaal voor al die keren dat je niet de url’s wilt bewaren maar de webpagina’s zelf.

#

  • © 2006- 2019 Vakblog – werken met informatie
    Aangedreven door WordPress en duizenden liters koffie // Theme: Tatami van Elmastudio
Top