Overleg gebruiker:Patrick Schileffski/2011-12/Onderzoeksmethoden/Onderzoeksvraag

Uit Werkplaats
Ga naar: navigatie, zoeken
Patrick Schileffski.jpg

Onderzoeksmethoden

Patrick Schileffski

 © comments






Basisgegevens

Titel 
Identificatie van verblijfplaatsen in het web 2.0
Onderzoeker 
Patrick Schileffski

Probleemstelling

Al in de klassieke oudheid wouden overheden weten hoeveel mensen in hun landen wonen. Dat had vooral ermee te maken, dat ze zeker wilden zijn dat al hun burger belasting betalen. Een van de bekendste volkstellingen gebeurde in de tijd in die Jezus geboren werd. In de huidige tijd gebeuren er nog steeds volkstellingen, maar de procedure is veranderd. Ondertussen wordt bij een census ook naar bijvoorbeeld de burgerlijke staat van een burger, naar zijn opleiding en ander gegevens gekeken om niet alleen vast te kunnen stellen hoeveel belasting Nederland binnen moet krijgen en hoe een deel hiervan weer eerlijk over de provincies en steden verdeeld wordt, maar ook om te kunnen kijken waar de infrastructuur moet worden verbetert. En volkstelling gebeurt in de huidige tijd meestal in het begin van een nieuw decennium en volgens de EU-richtlijnen is ieder lid verplicht om de tien jaren een volkstelling uit te voeren[1].

Dit onderzoek zal een stapje naar de volkstelling 2.0 zetten. Er gebeurt in Nederland al sinds 2001 een digitale census maar toch gebeurd die maar met tienjaarlijkse afstand. Dit onderzoek gaat zich ermee bezighouden, hoe we het web 2.0 ervoor kunnen gebruiken om in realtime uitspraken te kunnen maken over het aantal mensen dat zich ongeveer op een willekeurige tijdstip van de dag op een bepaalde plaats bevindt. Verder zal dit onderzoek zich ermee bezig houden tussen welke verblijfplaatsen de mensen dagelijks pendelen. Hiervoor zal naar de afkomst van twitterberichten (Tweets) worden gekeken, omdat van veel Tweets bekent is waar ze verzonden werden en Tweets in bijna realtime op het web verschijnen. De onderzoeksvraag die gesteld wordt heet dus:

Onderzoeksvraag

Wat is de correlatie tussen de verblijfplaatsen van mensen in de reële wereld en de afkomst van tweets?


Als ik alleen de onderzoeksvraag lees, dan begrijp ik niet waar je onderzoek nu over gaat eerlijk gezegd. Verblijfplaats kan thuisadres zijn en kan locatie zijn waar vandaan men tweet. Met mobiele platforms kan die locatie uiteraard gaan verschillen. Het lijkt mij een goed idee om dit iets verder te specificeren in je vraagstelling.
Christiaan Hillen.jpg
Christiaan HillenPatrick Schileffski Remove this comment when resolved!


Verantwoording

De reden om te kijken wat de actuele verblijfsplaatsen van mensen zijn is in dit onderzoek minder om te weten wie waar is maar meer om te weten hoeveel mensen wanneer waar zijn en hoeveel mensen zich wanneer op welke routes bewegen. Deze informatie voor veel mensen interessant kunnen zijn. De planologie kijkt bijvoorbeeld hoeveel mensen op bepaalde tijdstippen op bepaalde routes onderweg zijn om te kunnen plannen of de infrastructuur op deze routes moet worden verbeterd, hetzelfde geldt natuurlijk ook voor plaatsen waar veel mensen voor langere tijd verblijven. Een ander domein die van realtime gegevens over het verblijf van mensen zouden profiteren is het crisismanagement. Als er een groot ongeluk gebeurd is vaak een van de eerste vragen hoeveel mensen in gevaar zijn. Door middel van topactuele gegevens zou dus beter kunnen worden gecoördineerd hoeveel reddingswerkers er waarschijnlijk nodig zijn om alle slachtoffers van zo een ongeluk snel te kunnen helpen. Een derde profiterende van realtime informatie over verblijfplaatsen en regelmatig gebruikte routes van mensen zou de reclamesector zijn. Op plaatsen waar veel mensen zijn of regelmatig langs komen, kunnen natuurlijk meer mensen worden bereikt dan op plaatsen waar bijna niemand langs komt.


Zoals ik het nu begrijp wil je de locatie van de computer (desktop/smartphone/laptop) waarmee getweet wordt gebruiken om te bepalen waar iemand heen gaat, langs komt en verblijft op een dag? Interesting!
Christiaan Hillen.jpg
Christiaan HillenPatrick Schileffski Remove this comment when resolved!


Theoretisch kader

Voor de implementatie van een systeem dat met behulp van Twitter als een representant van het hele web 2.0 gebeuren, de verblijfplaatsen en regelmatige routes van mensen gaat weergeven zijn er de volgende stappen nodig:

  • Het verzamelen van de gegevens


Welke gegevens wil je precies hebben?
Christiaan Hillen.jpg
Christiaan HillenPatrick Schileffski Remove this comment when resolved!
  • Het kiezen van belangrijke criteria van de gegevens
  • Het verwerken van de gegevens
  • De representatie van de resultaten

Voor ieder van deze stappen is er onderzoek nodig om het onderzoek waar dit werkstuk over gaat, theoretisch te kunnen onderbouwen. Voor het verzamelen van de gegevens willen we gegevens van Twitter gebruiken. Hiervoor moet dus worden gekeken hoe we gegevens van Twitter kunnen krijgen en hoe en waar we ze kunnen verzamelen. Voor de communicatie met Twitter biedt Twitter eigen APIs die ook gedocumenteerd zijn[2]. Voor het verzamelen van de gegevens zal een database worden gebruikt die goed met de programmeertaal samen werkt met die het hele systeem geschreven wordt. De programmeertaal is wederom afhankelijk van de APIs van die het systeem gebruik zal maken en wordt daarom Java. Java wordt namelijk zowel van de Twitter APIs als ook van de Google Maps API ondersteund over die we het straks nog een keer zullen hebben. Wat de belangrijke criteria betreft zullen sowieso de id van de Twitteraar en het datum en de locatie van de Tweet van belang zijn, want zonder deze gegevens wordt het moeilijker om uitspraken over de verplifplaatsen den de routes van mensen te kunnen maken. Verder kunnen er nog andere criteria belangrijk zijn, maar welke dat zijn moet uit experimenten naar voren komen.


Ik denk dat het een goed idee is om hier ook even iets te vernoemen over de privacy van de gebruikers van Twitter. Is het toegestaan om zomaar een lokatie te achterhalen bijvoorbeeld? Of is dit een stukje data dat sowieso wordt opgeslagen en de gebruiker al eerder een consentform voor heeft ingevuld toen hij/zij een account aan maakte bij Twitter?
Christiaan Hillen.jpg
Christiaan HillenPatrick Schileffski Remove this comment when resolved!

Bij het verwerken van de gegevens kunnen we naar de geografie en de planologie kijken. Geografen en planologen zijn experts in het verzamelen van gegevens en het geschikte representeren van deze gegevens.


Helaas heb hier hiervoor nog geen geschikte literatuur kunnen vinden
Patrick Schileffski.jpg
Patrick SchileffskiPatrick Schileffski Remove this comment when resolved!

Bovendien moeten we kijken wat menselijke ritmes zijn en hoe menselijk reisgedrag eruit ziet om de verzamelde gegevens nog beter te kunnen duiden. Stefan Schönfelder en Kay W. Axhausen zijn twee verkeersplanners die zich precies hiermee bezig houden[3] Voor de representatie kunnen we ten eerste kijken hoe de representatie van bestaande Geoinformatiesystemen eruit zien en ten tweede hoe geografische gegevens die uit Tweets worden afgeleidt in ander systemen worden gerepresenteerd. Twee van deze systemen zijn Trendsmap (www.trendsmap.com) en Twittermap (www.twittermap.com) en allebei maken gebruik van Google-Maps. Google-Maps biedt een Java-compatibel API aan en zou dus waarschijnlijk voor het te ontwerpen systeem geschikt zijn, maar hiervoor moet eerst precies naar de Google-Maps-API [4] worden gekeken.

Methode

Er zijn twee type variabelen die binnen dit onderzoek van belang zijn. Een onafhankelijke variabele is de tijd die bij ons met behulp van datums en tijden gemeten wordt. De afhankelijke variabelen zijn het aantal Tweets en de afkomst van de Tweets dat op een gegeven moment verzonden wordt. Het aantal is een natuurlijk getal en de afkomst wordt aan de hand van de lengte- en breedtegraden van die de Tweet verzonden werd, bepaald. Bovendien zal er naar het aantal mensen worden gekeken, die op een bepaald tijdstip op een bepaald plaats verblijven. Het aantal mensen kan zoals het aantal Tweets met een natuurlijk getal weergegeven worden en een plaats kan zoals de afkomst van een Tweet aan de hand van zijn geocoördinaten worden gerepresenteerd. Omdat zowel de afkomst van een aantal Tweets als ook het verblijf van een aantal mensen met dezelfde type variabelen gemeten wordt, kan dus een correlatie tussen deze twee gegevens worden bepaald en belanden weer bij de bovenstaande onderzoeksvraag.


"Een bepaalde plaats" is mij niet geheel duidelijk. Hoe groot moet deze plaats dan zijn? Twee mobiele platformen die tegelijk een tweet versturen en 20 cm van elkaar af liggen, zijn die op dezelfde plaats? En hoe zit het met deze twee als ze respectivelijk in het Erasmusgebouw en op de Waalbrug zitten? Het lijkt mij wel een heel mooi systeem om te kunnen zien op bijvoorbeeld Google maps (met een stipje) waar elke tweet vandaan is gekomen. (Een visualisatie van je onderzoeksgegevens) Je moet alleen de schaal even duidelijk maken en wat een gebied/plaats precies is.
Christiaan Hillen.jpg
Christiaan HillenPatrick Schileffski Remove this comment when resolved!


Literatuur

Bronnen

  1. Verordening (EG) Nr. 763/2008 van het Europees Parlement en de Raad van 9 juli 2008 betreffende volks- en woningtellingen
  2. Twitter developers documentation, https://dev.twitter.com/docs
  3. Urban Rhythms and Travel Behaviour, Stefan Schönfelder & Kay W. Axhausen, Ashgate Publishing Ltd., 2010
  4. Google Maps API Familie, http://code.google.com/intl/de-DE/apis/maps


Het is zeker een origineel onderzoek, ik heb zo snel niets kunnen vinden qua eerdere literatuur hierover. Het heeft nog wel wat aandacht nodig om het iets concreter te maken. Je bent op de goede weg!
Christiaan Hillen.jpg
Christiaan HillenPatrick Schileffski Remove this comment when resolved!