Alle woorden tellen mee: hoe tel je het aantal woorden in een PDF document?

woorden tellen“Je moet op je woorden letten. Je moet te allen tijde op je woorden letten.”, schreef Youp van ‘t Hek in zijn bundel Mooie woorden. Dat betekent niet alleen dat je zorgvuldig in je keuze van woorden moet zijn maar ook dat je soms moet letten op hoeveel woorden je gebruikt.

Als je ze aan het schrijven bent – omdat je een column of artikel aan het schrijven bent voor een (wetenschappelijk) tijdschrift en dat bijna altijd aan een maximum aantal woorden gebonden is – is het tellen van de woorden geen probleem. Elke tekstverwerker laat je in het document zien hoeveel woorden je nog van de woordengrens verwijderd bent.

Lastiger wordt het als je een bestaand artikel of tekst wilt hergebruiken en wilt weten uit hoeveel woorden die tekst bestaat. Artikelen worden bijna altijd als PDF documenten verspreid maar de software om PDF’s mee te lezen (zoals Adobe Reader) hebben geen woordenteller aan boord waarmee je dit snel kunt nakijken. En dat terwijl het soms belangrijk kan zijn om precies te weten uit hoeveel woorden zo’n tekst bestaat.

Korte overnames ten behoeve van het onderwijs

Bijvoorbeeld als het gaat om het overnemen van tijdschriftartikelen en gedeelten van boeken in readers of de digitale leeromgeving. De onderwijsexceptie in de Auteurswet zorgt er weliswaar voor dat ‘verveelvuldiging of openbaarmaking van gedeelten’ van auteursrechtelijk beschermde werken ter toelichting van het onderwijs geen inbreuk vormt op het auteursrecht maar er moet nog steeds wel een vergoeding betaald worden aan de rechthebbende(n). Dat wordt praktisch door de onderwijsinstellingen geregeld middels een afkoopregeling met het Nederlands Uitgeversverbond (NUV) en de Stichting PRO.

Deze regeling behelst het afkopen van het gebruik van korte gedeelten zodat docenten deze zonder bijkomende vergoedingen kunnen gebruiken in hun onderwijsmateriaal. Natuurlijk moet je vervolgens dan wel benoemen wat als een korte overname gerekend wordt en dat doet de afkoopregeling ook: maximaal tienduizend woorden uit een boek en maximaal achtduizend woorden uit een tijdschrift.

Maar ja, niemand gaat natuurlijk handmatig alle woorden tellen van een tijdschriftartikel of een hoofdstuk uit een boek. En dat betekent dat er een ruwe schatting gemaakt wordt. Een gemiddelde boekpagina bevat ca. 400 woorden en als je dus onder de 25 pagina’s zit zal het waarschijnlijk wel onder de tienduizend woorden zitten. Bij artikelen verschilt het aantal woorden per pagina enorm onderling, afhankelijk van de opmaak, en moet je dus ook vaak een beetje gokken. Gelukkig zijn de meeste artikelen onder de achtduizend woorden maar dat is zeker niet altijd het geval.

Automatisch woorden tellen in een PDF document

 

woorden tellenOok al beschikt PDF software niet over een woordenteller, je kunt met behulp van bepaalde software wel het PDF document snel converteren naar een Word document. Hiervoor ondergaat het document een scanproces waarbij de tekst weer herkend kan worden. En Word gewoon kan laten zien hoeveel woorden dat document bevat.

Optie 1: Openen van het PDF document in Microsoft Word

De makkelijkste optie is om het PDF document rechtstreeks te openen in Word. Vanaf versie 2013 kan Word zelf het PDF document omzetten naar een bewerkbaar document. Dat duurt zelfs voor grote documenten slechts een tiental seconden en je kunt vervolgens meteen in de linkeronderhoek zien hoeveel woorden het document bevat.

Het “nadeel” van deze methode is dat je de PDF moet openen vanuit Word 2013 omdat Windows bestanden met een .pdf extensie niet aan Word koppelt. En niet iedereen gebruikt de 2013 versie natuurlijk.

Optie 2: Converteren van PDF naar Word in de (betaalde) PDF software

Gratis PDF leessoftware – zoals Adobe Reader of Foxit Reader – kunnen alleen maar PDF documenten openen maar heb je de volledige (en betaalde) PDF software tot je beschikking, dan kun je hiermee ook snel PDF’s converteren naar Word documenten.

woorden tellen AdobeAcrobat

In Adobe Acrobat Pro kun je het PDF document eenvoudig opslaan als Word document.

woorden tellen ABBYY PDF Transformer+

In ABBYY PDF Transformer+ converteer je het PDF document naar een Word document met een knop in de menubalk.

Optie 3: De woordenteller van Stichting PRO

Sinds 15 september 2015 biedt Stichting PRO een online woordenteller aan. Hierbij kan iedereen een PDF document uploaden naar de site en krijg je binnen 10 minuten een rapportje in je mailbox waarin vermeld staat hoeveel woorden het PDF document bevat.

woorden tellen stichting pro
Deze tool wordt door Stichting PRO ook gebruikt bij de controles van de elektronische leeromgevingen en dus weet je gelijk of je binnen of buiten de woordengrenzen valt met jouw overname. Het grote voordeel van de online woordenteller is dat je geen aparte software hoeft te gebruiken en je met elke browser je document kunt uploaden.

Wel valt na enkele testen met meerdere PDF documenten op dat de Stichting PRO woordenteller 5% tot 10% meer woorden lijkt te detecteren dan als je het document via Word 2013 of één van de PDF pakketten verwerkt. Er wordt weliswaar aangegeven dat eigen tellingen af kunnen wijken van de tellingen van Stichting PRO maar het zou niet zo moeten zijn lijkt me dat de online woordenteller structureel 5 tot 10 procent meer woorden herkent. Ondanks de verklaring van Stichting PRO dat hun telling leidend is zou dit nog wel tot discussies kunnen leiden.

@foto via Flickr met CC Naamsvermelding 2.0 licentie

#

Raymond Snijders

Sinds 1995 houdt Raymond zich bezig met de combinatie van ICT, bibliotheken en onderwijs vanuit het perspectief van (vooral) de bibliotheek en informatievoorziening. Thans is hij werkzaam bij de Hogeschool Windesheim als senior informatiebemiddelaar en houdt hij zich bezig met de digitale bibliotheek, contentlicenties, ebooks en auteursrecht. Over deze onderwerpen en de impact die ze (kunnen) hebben op het onderwijs en bibliotheken blogt hij sinds 2006 op zijn Vakblog. In 2013 won hij de Victorine van Schaickprijs voor zijn blog.

Comments (4) Write a comment

  1. Het zou helemaal handig zijn als ook automatisch de plaatjes en tabellen geteld kunnen worden. Die tellen nl. voor 200 woorden.

    Reply

  2. Je merkt terecht op dat het standpunt van Stichting Pro nog wel eens tot discussie zou kunnen leiden. Om die te beginnen het volgende. Disclaimer: ik ben bestuursrechtelijk geschoold en werkzaam, terwijl ik vermoed dat Stichting Pro enkel civielrechtelijk handelt. Des te interessanter lijkt mij een frisse blik ;)

    In het bestuursrecht geldt enerzijds de vrije bewijsleer (belanghebbenden kunnen alles aandragen om hun stellingen te staven), anderzijds dat het een bestuursorgaan bij het nemen van een besluit – binnen enige grenzen – vrij staat bewijsbeleid te hanteren. De achterliggende gedachte is dat van het bestuursorgaan niet ALLES kan worden verlangd en dat bij omvangrijke kwesties doelmatig moet kunnen worden opgetreden. Met een potlood het aantal woorden op 25 pagina’s turven hoeft dus echt niet, ook niet als de belanghebbende daarom vraagt of het zelf wel doet.

    In de print-screen in bovenstaande blog wordt door Stichting Pro opgemerkt dat het aantal woorden wordt bepaald door middel van OCR (Optical Character Recognition). OCR-software opent een document, vaak een afbeelding (een als afbeelding ingescand artikel, bijvoorbeeld), herkent daarin staande tekens en maakt er weer karakters van in een digitaal document. Dat proces is niet feilloos, zeker als de kwaliteit van het document dat wordt geopend laag is (denk aan een geprint artikel, kopie van een kopie van een kopie of een oud gedrukt stuk. Niet alle tekens zullen altijd worden herkend en daarom treden er verschillen in tellingen op. Omdat echter niet van Stichting Pro kan worden verlangd alles met de hand (na) te tellen, lijkt mij een marge in zulke gevallen best te verdedigen, al is een marge van 10% wel aan de erg ruimte kant.

    Maar wat nu, als geen afbeelding (ingescand artikel) wordt aangeleverd, maar een PDF die is gedownload uit de digitale omgeving van een tijdschrift (Kluwer Navigator, bijvoorbeeld)? Of nog beter: een Word-document? Het loslaten van OCR-software op de letterlijke tekst van het artikel leidt onmiskenbaar tot een minder betrouwbaar resultaat dan het digitaal tellen van woorden van de digitale tekst (aantal spaties + 1). Dat is nu eenmaal inherent aan OCR.

    Nu kun je je afvragen waarom dat van belang zou zijn: als je het digitale document hebt, weet je zelf vrij gemakkelijk hoeveel woorden erin staan en hoef je niet de OCR-software van Stichting Pro te gebruiken. Selecteer in een PDF bijvoorbeeld alle tekst, kopieer deze naar Word en tel daarin de woorden. Maar wat nu, als Stichting Pro jouw reader ter controle door hun eigen scanner trekt en daarbij tot een ander telresultaat komt dan jijzelf met de originele teksten? In dat geval lijkt mij zeer wel denkbaar dat Stichting Pro het nakijken heeft.

    Reply

Leave a Reply

Required fields are marked *.


This site uses Akismet to reduce spam. Learn how your comment data is processed.

  • © 2006- 2019 Vakblog – werken met informatie
    Aangedreven door WordPress en duizenden liters koffie // Theme: Tatami van Elmastudio
Top