<?xml version="1.0" encoding="UTF-8"?> <rss
version="2.0"
xmlns:content="http://purl.org/rss/1.0/modules/content/"
xmlns:wfw="http://wellformedweb.org/CommentAPI/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:atom="http://www.w3.org/2005/Atom"
xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
><channel><title>Vakblog - werken met informatie &#187; statistieken</title> <atom:link href="http://rsnijders.info/vakblog/category/statistieken/feed/" rel="self" type="application/rss+xml" /><link>http://rsnijders.info/vakblog</link> <description></description> <lastBuildDate>Fri, 30 Jul 2010 08:56:53 +0000</lastBuildDate> <language>en</language> <sy:updatePeriod>hourly</sy:updatePeriod> <sy:updateFrequency>1</sy:updateFrequency> <generator>http://wordpress.org/?v=3.0.1</generator> <item><title>TextSTAT – analyseren van teksten</title><link>http://rsnijders.info/vakblog/2010/07/14/textstat-analyseren-van-teksten/</link> <comments>http://rsnijders.info/vakblog/2010/07/14/textstat-analyseren-van-teksten/#comments</comments> <pubDate>Wed, 14 Jul 2010 16:20:42 +0000</pubDate> <dc:creator>Raymond</dc:creator> <category><![CDATA[Software]]></category> <category><![CDATA[statistieken]]></category> <category><![CDATA[taxonomie]]></category> <category><![CDATA[tekstanalyse]]></category> <category><![CDATA[woordenlijsten]]></category><guid
isPermaLink="false">http://rsnijders.info/vakblog/?p=1379</guid> <description><![CDATA[Afgelopen week zocht ik een eenvoudig programmaatje waarmee ik woordfrequentielijsten kon maken. Dat was een beetje naar aanleiding van het verhaal over dynamisch classificeren tijdens de OIN Zomerbijeenkomst: met al het gepraat over een taxonomie leek het een aardig idee om eens naar het taal- en woordgebruik te kunnen kijken van een corpus aan documenten. [...]]]></description> <content:encoded><![CDATA[<p>Afgelopen week zocht ik een eenvoudig programmaatje waarmee ik woordfrequentielijsten kon maken. Dat was een beetje naar aanleiding van het verhaal over dynamisch classificeren tijdens de <a
href="http://rsnijders.info/vakblog/2010/07/12/zomerbijeenkomst-oostelijk-informatie-netwerk-6-juli/">OIN Zomerbijeenkomst</a>: met al het gepraat over een taxonomie leek het een aardig idee om eens naar het taal- en woordgebruik te kunnen kijken van een corpus aan documenten. Op die manier kun je dan redelijk eenvoudig zien welke (vak)termen daadwerkelijk in documenten gebruikt worden en dat is dan weer een goede basis voor het opstellen van een taxonomie.</p><p>Ondanks enkele suggesties van Linux kenners/programmeurs die met groot plezier een Python script voor me in elkaar wilden zetten, zocht ik toch een Windows programmaatje omdat ik nu eenmaal noch een Linux expert, noch een programmeur ben. Collega Jo Han duikelde bij de site van de Vrije Universiteit van Berlijn echter een open source, Nederlandstalig, programmaatje op die de klus erg eenvoudig kan klaren: <a
href="http://neon.niederlandistik.fu-berlin.de/nl/textstat/">TextSTAT</a>.</p><p>De site beschrijft TextSTAT als volgt:</p><blockquote><p>TextSTAT is een eenvoudig programma voor de analyse van teksten. Het programma leest tekst-files (in diverse coderingen) en HTML-pagina&#8217;s (ook direct uit het internet). Het programma produceert woordfrequentie-lijsten en concordanties van deze bestanden. TextSTAT heeft een web-spider waarmee u een willekeurig aantal pagina&#8217;s van een bepaalde website kunt toevoegen aan een TextSTAT-corpus. De geïntegreerde news-reader leest berichten van usenet newsgroups en maakt daarvan een corpus.<br
/> TextSTAT leest ook MS Word-bestanden en OpenOffice Writer-bestanden. U kunt deze bestanden zonder converteren direct toevoegan aan een corpus.</p></blockquote><p><a
href="http://rsnijders.info/vakblog/wp-content/uploads/2010/07/textstat1.png"><img
class="aligncenter size-full wp-image-1380" title="textstat1" src="http://rsnijders.info/vakblog/wp-content/uploads/2010/07/textstat1.png" alt="" width="500" height="270" /></a><br
/> Niet alle opties heb ik gebruikt maar de basis is net zo eenvoudig als de omschrijving doet vermoeden. Op het tabblad Corpus staan de tekst- en/of Word documenten die onderdeel uitmaken van de corpus die je geopend hebt (een set aan documenten). Als je deze toegevoegd hebt kun je in luttele seconden een woordfrequentielijst aanmaken met enkele opties voor sorteren en filteren binnen die lijst. Hoewel TextSTAT niet met een stopwoordenlijst werkt (het enige minpuntje wat ik zo 1-2-3 kon ontdekken) is het kinderspel om snel zicht te krijgen op veelgebruikte woorden in de documenten. Hoe meer documenten er in de corpus zitten, hoe nauwkeuriger en interessanter het wordt. Vanzelfsprekend kun je deze lijst ook exporteren naar CSV formaat, mocht je er elders ook nog bewerkingen op los willen laten.</p><p>Het Concordance tabblad wordt actief op het moment dat je dubbelklikt op een woord uit het Word forms tabblad en geeft de zinnen weer waarin het woord voorkomt in de documenten, geordend op de term zelf. Voor de fans, het is dus een <a
href="http://en.wikipedia.org/wiki/Key_Word_in_Context">KWIC</a> index. Het laatste tabblad, Citation, wordt op zijn beurt pas actief als er op een regel uit het Concordance tabblad geklikt wordt waarna 5 a 6 regels getoond worden om de context van de term in het document weer te geven incl. linkje om het originele document te openen.</p><p>Nu bouw je niet dagelijks een taxonomie maar behalve voor dit doel is het ook een leuke tool om zicht te krijgen op je eigen stopwoorden in je eigen documenten. Zo kwam ik er achter dat ik woorden als &#8216;echter&#8217; en &#8216;volledig&#8217; bijzonder vaak gebruik.  Een leuke en handige tool, nog open source ook!</p><p
align="center"><a
class="tt" href="http://twitter.com/home/?status=TextSTAT+%E2%80%93+analyseren+van+teksten+http://bit.ly/9nwVdR" title="Laat het via Twitter weten"><img
class="nothumb" src="http://rsnijders.info/vakblog/wp-content/plugins/tweet-this/icons/tt-twitter-micro3.png" alt="Post to Twitter" /></a></p><p>Soortgelijke posts:<ol><li><a
href='http://rsnijders.info/vakblog/2008/05/20/workshop-beheer-en-ordenen-van-documenten/' rel='bookmark' title='Permanent Link: Workshop beheer en ordenen van documenten'>Workshop beheer en ordenen van documenten</a></li><li><a
href='http://rsnijders.info/vakblog/2009/08/20/importeren-van-mail-en-contacten-in-gmail/' rel='bookmark' title='Permanent Link: Importeren van mail en contacten in Gmail'>Importeren van mail en contacten in Gmail</a></li><li><a
href='http://rsnijders.info/vakblog/2007/12/14/artikel-van-irene-van-den-bergcozzmoss-bij-de-nieuwe-reporter/' rel='bookmark' title='Permanent Link: Artikel van Irene van den Berg/Cozzmoss bij de Nieuwe Reporter'>Artikel van Irene van den Berg/Cozzmoss bij de Nieuwe Reporter</a></li></ol></p>]]></content:encoded> <wfw:commentRss>http://rsnijders.info/vakblog/2010/07/14/textstat-analyseren-van-teksten/feed/</wfw:commentRss> <slash:comments>0</slash:comments> </item> <item><title>Zoektrends met Google Insights for Search</title><link>http://rsnijders.info/vakblog/2009/08/18/zoektrends-met-google-insights-for-search/</link> <comments>http://rsnijders.info/vakblog/2009/08/18/zoektrends-met-google-insights-for-search/#comments</comments> <pubDate>Tue, 18 Aug 2009 17:35:59 +0000</pubDate> <dc:creator>Raymond</dc:creator> <category><![CDATA[statistieken]]></category> <category><![CDATA[Google Insights for Search]]></category><guid
isPermaLink="false">http://rsnijders.info/vakblog/?p=854</guid> <description><![CDATA[Dutch Cowboys meldde vanochtend dat Google Insights for Search vanaf vandaag ook in het Nederlands beschikbaar is. Google Insights for Search is 1 van de vele webdiensten die Google levert en deze specifieke dienst is bedoeld voor het bekijken en analyseren van trends in zoektermen, onderverdeeld naar regio&#8217;s en tijdsperioden. Met name de regio&#8217;s (de [...]]]></description> <content:encoded><![CDATA[<p><a
href="http://www.dutchcowboys.nl/search/17677">Dutch Cowboys meldde vanochtend</a> dat <a
href="http://www.google.nl/insights/search">Google Insights for Search</a> vanaf vandaag ook in het Nederlands beschikbaar is.</p><p><a
href="http://www.google.nl/insights/search"><img
class="aligncenter size-full wp-image-855" title="insight0" src="http://rsnijders.info/vakblog/wp-content/uploads/2009/08/insight0.png" alt="insight0" width="500" height="260" /></a><br
/> Google Insights for Search is 1 van de vele webdiensten die Google levert en deze specifieke dienst is bedoeld voor het bekijken en analyseren van trends in zoektermen, onderverdeeld naar regio&#8217;s en tijdsperioden. Met name de regio&#8217;s (de provincies van Nederland) zijn natuurlijk erg gebonden aan het land en taal en dus is GIfS  met de introductie van de Nederlandse taal en Nederlandse regio&#8217;s een nuttige aanvulling geworden voor alle cijfer en trends liefhebbers.</p><p>Ik citeer even uit de <a
href="http://www.dutchcowboys.nl/search/17677">blogpost van Dutch Cowboys</a> aangezien ik dat niet anders/beter zou doen:</p><blockquote><p>Met behulp van Insights kun je onder meer het volgende doen:</p><p>- De verwachte toekomstige populariteit van zoekopdrachten raadplegen – met behulp van de voorspellingsfuncties kun je achterhalen met welke frequentie er naar verwachting door gebruikers naar een bepaald onderwerp zal worden gezocht.</p><p>- Een geanimeerde kaart raadplegen – bekijk hoe de wereldwijde belangstelling voor een bepaald onderwerp zich door de tijd heen ontwikkelt.</p><p>- Vergelijkende grafieken in je website opnemen – je kunt nu op eenvoudige wijze alle grafieken van Insights for Search aan je website toevoegen.</p><p>- Zoektrends– je kunt nu nagaan of de belangstelling van gebruikers voor een bepaald onderwerp stijgt of juist daalt. Om de populariteit van trefwoorden te vergelijken, voer je simpelweg de verschillende trefwoorden in, gescheiden door een komma.</p><p>- Regionale interesse – Ga na in welke landen, steden en regio’s de meeste belangstelling voor een bepaald onderwerp is. Klik op een locatie op de populariteitskaart om meer te weten te komen over de zoekfrequentie in een specifieke regio.</p><p>- De meest populaire en in populariteit stijgende zoekopdrachten – je kunt nu achterhalen welke zoekopdrachten die met jouw interesses verband houden het populairst zijn, en welke trefwoorden in populariteit toenemen.</p><p>- Inzichten verfijnen per categorie – je kunt nu de meest populaire zoekopdrachten raadplegen voor een specifieke categorie, zoals &#8216;Bekende personen&#8217;, of populaire zoekopdrachten voor &#8216;Automerken&#8217;. Om gedetailleerde resultaten te verkrijgen kun je een datum, regio of onderwerp opgeven.</p></blockquote><p>Tot zover de theorie maar dat moet ik dus even uitproberen na <a
href="http://www.google.com/support/insights//bin/answer.py?hl=nl&amp;answer=96693">de hulppagina</a> gelezen te hebben. Ik begin kleinschalig met te kijken of mijn naam nog enigszins trends vertoont de laatste 3 jaar maar ondanks het opgeven van meerdere tijdsvakken meldt GIfS gelijk al dat er niet voldoende gegevens uitrollen om er een zinnige analyse op los te maken. Ik moet dus nog duidelijk werken aan mijn eigen &#8216;netpresence&#8217; en dus probeer ik het nog een keer met 1 periode, nl. van 2004- heden.</p><p><img
class="aligncenter size-full wp-image-856" title="insight2" src="http://rsnijders.info/vakblog/wp-content/uploads/2009/08/insight2.png" alt="insight2" width="500" height="205" /><br
/> In het overzicht met de zoektermen is vervolgens gelijk te zien wat het probleem is: de populairste Snijders is Wende Snijders en niet ik! Dat mijn zus Wendy Snijders heet compenseert helaas dus ook al niet. De meestgezochte Raymond ben ik vervolgens ook al niet want dat is die darter. Onbegrijpelijk dat een pijltjes-in-de-kroeg gooier populairder is dan een blogger  maar zo zijn er wel meer mysteries in dit universum die ik niet nader kan verklaren. Triester is dat ik vervolgens ene Raymond Weil, mijn zingende Belgische voornaam-genoot en zelfs de (best goede) schrijver Raymond Feist ook nog voor me moet dulden. Gelukkig is op de 7e plek bij de stijgende populaire zoekopdrachten nog wel te zien dat iedereen van me houdt dus mijn ego overleeft deze openbaring. Mijn tijd komt nog wel!</p><p><a
href="http://twitter.com/gbierens/status/3379872705">Gerard Bierens twitterde</a> dat GIfS wellicht ook boeiend is voor marketing afdelingen van hogescholen en het lijkt me inderdaad een goed idee om volgende week een suggestie richting onze dienst marketing en communicatie te sturen.</p><p>Windesheim had Gerard in de tweet al vergeleken met 4 andere hogescholen en dan is voor Windesheim het tweede deel van de resultaten wel interessant, nl. de zoektermen  en natuurlijk de regio&#8217;s.</p><p
style="text-align: center;"><a
href="http://www.google.nl/insights/search/#q=windesheim%2Cavans%2Cinholland%2Cfontys%2Chogeschool%20utrecht&amp;geo=NL&amp;date=today%2012-m&amp;cmpt=q"><img
class="aligncenter size-full wp-image-857" title="insight1" src="http://rsnijders.info/vakblog/wp-content/uploads/2009/08/insight1.png" alt="insight1" width="500" height="379" /></a></p><p>In de noordelijke provincies zoekt men het meest op Windesheim met een logische piek voor Overijssel. De combinatie Windesheim en Zwolle prevaleert en (ongetwijfeld studenten) zijn gebruikers kennelijk niet in staat om de url&#8217;s van Blackboard, Sharenet en de roosterapplicatie te onthouden. Punt windesheim punt nl achter die termen zetten is te moeilijk voor HBO-ers &#8230; ShareNet en het rooster zijn ook de explosief stijgende termen waarom gezocht wordt.</p><p>Kortom, een nieuwe tool voor de cijfer en trends liefhebbers onder ons die &#8216;iets&#8217; doen met internet.</p><p
align="center"><a
class="tt" href="http://twitter.com/home/?status=Zoektrends+met+Google+Insights+for+Search+http://bit.ly/10sf7s" title="Laat het via Twitter weten"><img
class="nothumb" src="http://rsnijders.info/vakblog/wp-content/plugins/tweet-this/icons/tt-twitter-micro3.png" alt="Post to Twitter" /></a></p><p>Soortgelijke posts:<ol><li><a
href='http://rsnijders.info/vakblog/2009/10/27/nieuw-van-google-google-social-search/' rel='bookmark' title='Permanent Link: Nieuw van Google: Google Social Search'>Nieuw van Google: Google Social Search</a></li><li><a
href='http://rsnijders.info/vakblog/2008/03/14/boeken-linken-naar-google-book-search/' rel='bookmark' title='Permanent Link: Boeken linken naar Google Book Search'>Boeken linken naar Google Book Search</a></li><li><a
href='http://rsnijders.info/vakblog/2010/05/05/update-voor-google-search/' rel='bookmark' title='Permanent Link: Update voor Google (Search)'>Update voor Google (Search)</a></li></ol></p>]]></content:encoded> <wfw:commentRss>http://rsnijders.info/vakblog/2009/08/18/zoektrends-met-google-insights-for-search/feed/</wfw:commentRss> <slash:comments>0</slash:comments> </item> </channel> </rss>
<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Minified using disk
Page Caching using disk (user agent is rejected)
Database Caching 5/27 queries in 0.016 seconds using disk

Served from: rsnijders.info @ 2010-07-31 07:35:08 -->