TextSTAT – analyseren van teksten

Afgelopen week zocht ik een eenvoudig programmaatje waarmee ik woordfrequentielijsten kon maken. Dat was een beetje naar aanleiding van het verhaal over dynamisch classificeren tijdens de OIN Zomerbijeenkomst: met al het gepraat over een taxonomie leek het een aardig idee om eens naar het taal- en woordgebruik te kunnen kijken van een corpus aan documenten. Op die manier kun je dan redelijk eenvoudig zien welke (vak)termen daadwerkelijk in documenten gebruikt worden en dat is dan weer een goede basis voor het opstellen van een taxonomie.

Ondanks enkele suggesties van Linux kenners/programmeurs die met groot plezier een Python script voor me in elkaar wilden zetten, zocht ik toch een Windows programmaatje omdat ik nu eenmaal noch een Linux expert, noch een programmeur ben. Collega Jo Han duikelde bij de site van de Vrije Universiteit van Berlijn echter een open source, Nederlandstalig, programmaatje op die de klus erg eenvoudig kan klaren: TextSTAT.

De site beschrijft TextSTAT als volgt:

TextSTAT is een eenvoudig programma voor de analyse van teksten. Het programma leest tekst-files (in diverse coderingen) en HTML-pagina’s (ook direct uit het internet). Het programma produceert woordfrequentie-lijsten en concordanties van deze bestanden. TextSTAT heeft een web-spider waarmee u een willekeurig aantal pagina’s van een bepaalde website kunt toevoegen aan een TextSTAT-corpus. De geïntegreerde news-reader leest berichten van usenet newsgroups en maakt daarvan een corpus.
TextSTAT leest ook MS Word-bestanden en OpenOffice Writer-bestanden. U kunt deze bestanden zonder converteren direct toevoegan aan een corpus.


Niet alle opties heb ik gebruikt maar de basis is net zo eenvoudig als de omschrijving doet vermoeden. Op het tabblad Corpus staan de tekst- en/of Word documenten die onderdeel uitmaken van de corpus die je geopend hebt (een set aan documenten). Als je deze toegevoegd hebt kun je in luttele seconden een woordfrequentielijst aanmaken met enkele opties voor sorteren en filteren binnen die lijst. Hoewel TextSTAT niet met een stopwoordenlijst werkt (het enige minpuntje wat ik zo 1-2-3 kon ontdekken) is het kinderspel om snel zicht te krijgen op veelgebruikte woorden in de documenten. Hoe meer documenten er in de corpus zitten, hoe nauwkeuriger en interessanter het wordt. Vanzelfsprekend kun je deze lijst ook exporteren naar CSV formaat, mocht je er elders ook nog bewerkingen op los willen laten.

Het Concordance tabblad wordt actief op het moment dat je dubbelklikt op een woord uit het Word forms tabblad en geeft de zinnen weer waarin het woord voorkomt in de documenten, geordend op de term zelf. Voor de fans, het is dus een KWIC index. Het laatste tabblad, Citation, wordt op zijn beurt pas actief als er op een regel uit het Concordance tabblad geklikt wordt waarna 5 a 6 regels getoond worden om de context van de term in het document weer te geven incl. linkje om het originele document te openen.

Nu bouw je niet dagelijks een taxonomie maar behalve voor dit doel is het ook een leuke tool om zicht te krijgen op je eigen stopwoorden in je eigen documenten. Zo kwam ik er achter dat ik woorden als ‘echter’ en ‘volledig’ bijzonder vaak gebruik.  Een leuke en handige tool, nog open source ook!

Raymond Snijders

Sinds 1995 houdt Raymond zich bezig met de combinatie van ICT, bibliotheken en onderwijs vanuit het perspectief van (vooral) de bibliotheek en informatievoorziening. Thans is hij werkzaam bij de Hogeschool Windesheim als senior informatiebemiddelaar en houdt hij zich bezig met de digitale bibliotheek, contentlicenties, ebooks en auteursrecht. Over deze onderwerpen en de impact die ze (kunnen) hebben op het onderwijs en bibliotheken blogt hij sinds 2006 op zijn Vakblog. In 2013 won hij de Victorine van Schaickprijs voor zijn blog.

Leave a Reply

Required fields are marked *.


This site uses Akismet to reduce spam. Learn how your comment data is processed.

  • © 2006- 2019 Vakblog – werken met informatie
    Aangedreven door WordPress en duizenden liters koffie // Theme: Tatami van Elmastudio
Top