Twitter: listening to a kitchen table conversation involving 17 million people tijdens de #srie13

Gisteren vond het SURF Research and Innovation Event 2013 plaats bij de Haagse Hogeschool. Zo’n 250 geïnteresseerden kwamen naar Den Haag toe om meer te horen over o.a. (innovatief) gebruik van ICT bij onderzoek en onderzoeksdata. Met twee keynotes en vier te volgen sessies binnen eveneens vier tracks was er voldoende variatie voor iedereen, ongeacht je achtergrond en interesses. Zelf heb ik de eerste keynote bijgewoond, net als twee sessies in de vierde track over citizen science & social media. Er is door aanwezigen (en organisatie) flink getwitterd met de hashtag #srie13 dus ook hier kun je nog even terugblikken.

Als je vaker dit blog gelezen hebt dan was het je niet ontgaan dat ik erg geïnteresseerd ben in archiveren, visualiseren en vooral analyseren van Twitter data. Het feit dat zo ontzettend veel mensen dagelijks zo ontzettend veel tweets produceren betekent dat het enorm interessant kan zijn om naar die tweets te kijken qua taalgebruik, actualiteit en in historisch perspectief. Stiekem was de tweede presentatie in de track citizen science & social media van Erik Tjong Kim Sang over de analyse van alle Nederlandse en Nederlandstalige tweets dan ook de reden voor mij om naar de #srie13 te gaan.

Ik kon mijn hart ophalen in elk geval.

Genoeg data levert Twitter in elk geval wel voor Erik want ook al heb je maar maximaal 140 tekens in een tweet, alleen al in Nederland zijn er bijna 2 miljoen twitteraars die dagelijks tussen de 3 en 4 miljoen tweets produceren. Hij neemt hierbij de Nederlandstalige tweets mee door te selecteren op een aantal ‘typisch’ Nederlandse woorden maar ook alle tweets van de 5000 meest productieve twitteraars. Na die selectie blijven er dan dagelijks 2 miljoen tweets over.

Het project TwiNL waar Erik aan werkt heeft als doel om al die Nederlandse tweets te verzamelen, deze doorzoekbaar te maken en een aantal views op die data erbij te geven.

twiqs

Doorzoekbaar zijn de verzamelde tweets inderdaad al vanaf december 2010 via de ontwikkelde zoekmachine Twiqs. Je kunt tweets op trefwoorden doorzoeken en alleen afbakenen op datum (of een periode)

Een zoekactie vandaag op hoeveel tweets er gisteren verstuurd zijn met de #srie13 hashtag levert, na een behoorlijk poosje wachten tot de server de 5 TB aan tweets doorzocht heeft, een selectie van 39 tweets op.

twiqs_srie13

De piek is te zien rond 10.30 en dat correspondeert met het begin van de presentatie van Leo Kouwenhoven. Het aardige is dat je behalve de grafiek in het menu ook kunt kiezen voor een kaart (waarin de aanwezige locatiegegevens zijn gevisualiseerd), woorden, gebruikers en de tweets zelf.

Vooral de gebruikers zijn leuk om te zien :)

twiqs_srie13_users

Erik gaf zelf ook voorbeelden van zoekresultaten in zijn presentatie. Een grafiek waarbij naar diverse trefwoorden is gezocht die met eten te maken hebben. Niet verrassend komen daar pieken te voorschijn rond half 8 in de ochtend, half 1 en 6 uur ‘s avonds. Interessant was ook de kaart die ontstaat bij het zoeken op ‘vast en zeker’ en ‘zeker en vast’. De regionale verschillen in het afwijkende gebruik van die uitdrukking kwamen netjes te voorschijn.

Het mooiste voorbeeld was wel een bewegende kaart die gemaakt was door op de locaties van tweets te letten waarin het woord ‘sneeuw’ voorkwam. Er ontstond een kort filmpje, vergelijkbaar met de buienradar, waarin het gebied waarin over sneeuw getwitterd werd langzaam vanuit het westen naar het oosten van het land trok. Een meteorologische toepassing zonder dat er meteorologische data aan te pas komt.

Geweldig toch?

#

Analyseren en visualiseren van je twitter archief

Met zo’n twitter archief kun je nog meer doen dan alleen maar downloaden, in Excel importeren en publiceren via je Google Drive account. Terugbladeren of zoeken naar oude tweets is leuk maar als je een analyse wilt maken van al je verstuurde tweets, dan kun je dat beter overlaten aan @JorisL.

Hij heeft een tool gemaakt waarbij je het twitter archief, zoals je dat hebt gedownload, weer kunt uploaden en laten analyseren. Enkele minuten later krijg je de resultaten terug op een eigen webpagina en kun je snel zien waaraan je zoveel tijd gespendeerd hebt de laatste jaren.

twitter archief

Zo zie je bij mij in één oogopslag dat ik in 2007 en 2008 nauwelijks getwitterd heb en dat ik het pas vanaf 2011 veel ben gaan gebruiken.

In de Wordcloud zie je de woorden die je het meest gebruikt hebt in tweets. Ik dacht dat het ‘goedemorgen’ zou zijn aangezien ik daar de dag bijna altijd mee begin maar het blijkt een strijd te zijn tussen ‘goed’ en ‘google’. Jammer dat ik geen AdSense van Google krijg op mijn tweets.

De @Cloud laat zien welke namen je het meest gebruikt hebt in je tweets, de mentions. Daar twijfel ik toch wel een beetje aan de juistheid want ik zie er ook namen tussen staan van tweeps waar ik volgens mij echt toch niet zo vaak tegen praat op twitter. Dat @Dymphie en @Elja1op1 zeer hoog scoren, dat verrast dan weer niet. Net als de onbetwiste nummer 1: @asinnema.

twitterarchief_tags

Je (meest?) gebruikte hashtags staan in het # Cloud deel van die analyse. Dat #blogpraat daar met koeienletters staat lag ook voor de hand maar ook hier zie ik hashtags tussen staan die ik slechts enkele keren gebruikt heb, zoals #getgluehd en #elinea. Ik denk dat het toch meer een willekeurige selectie is.

In grafiekjes staat vervolgens uitgesplitst welk deel van je tweets replies of retweets waren. Welke smileys je gebruikte (ik heb in bijna 7000 tweets de :) gezet) en hoeveel tweets wel en niet een hashtag bevatten.

Een grote grafiek is – bij mij tenminste- gereserveerd voor de gebruikte twitter cliënt. Ik heb er vele tientallen gebruikt de laatste jaren en dat komt hier duidelijk terug. Wederom zie ik hier wel wat raars terug want ook al is Twidroyd van naam veranderd en gebruik ik het inmiddels niet meer, ik heb er zeker weten wel meer dan 6 tweets mee verstuurd. Nou ja.

De laatste, grootste en ook meest zinloze grafiek is een uitsplitsing van al je tweets naar het aantal gebruikte karakters. Ik heb 122 tweets verstuurd met slechts 3 karakters erin (LOL vermoed ik)  terwijl ik 2324 tweets tot het uiterste gevuld heb met 140 tekens. Geen idee wat een mens met deze informatie moet ;)

Wat valt er op aan de analyse van jouw twitter archief?

(Getipt door Bright)

#

Twittervisualisatie in realtime met Tweetping

tweetping

Heel praktisch is het misschien niet. Een wereldkaart waar, vanaf het moment dat je naar de site gaat, in realtime de tweets voorbij flitsen in moordend tempo. Maar Tweetping pakt het prachtig aan. Een permanent donkere kaart waar elke clustering van tweets een lichtpuntje oplevert en waar geleidelijk geheel Noord Amerika, Europa en Azië beginnen op te lichten.

Ondertussen zie je de tellers per werelddeel snel oplopen die de aantallen tweets, woorden en karakters weergeven. De laatste tweets, hashtags en mentions zappen zo snel voorbij dat je het niet meer volgen kunt.

Nee, praktisch is het niet maar het is wel enorm Zen. Ik was ineens een half uur verder terwijl ik poogde te achterhalen in welke landen de tweets opdoken, langzaam hele gebieden verlicht zag worden en geïntrigeerd was door de gigantische hoeveelheden data die dus alleen al via Twitter de wereld rond gaan. Het dashboard met de tellers kun je ook wegklappen waardoor je even weg kunt dromen bij deze leuke site.

Het enige wat nog ontbreekt aan Tweetping is de mogelijkheid om een goed muziekje erbij te kunnen luisteren. Maar die kun je er zelf bij zoeken natuurlijk.

(Getipt door datajournalistiek.nl)

#

  • © 2006- 2021 Vakblog – werken met informatie
    Aangedreven door WordPress en duizenden liters koffie // Theme: Tatami van Elmastudio
Top