Onderzoeksmethoden 2/best practices/tekstanalyse
Uit Werkplaats
< Onderzoeksmethoden 2 | best practices
Versie door Thierry Stamper (overleg | bijdragen) op 17 dec 2009 om 21:34
Inhoud
Algemeen
- [Groep6-0809] Zorg dat je tussentijds gevonden Best Practices op een kladje schrijft zodat je ze aan het eind van de cursus nog terug kan vinden!!
Conceptueel model
- [Groep?-0809] Voor het weergeven van het domein model hebben we voor ORM gekozen. Met deze methode kun je makkelijk een complex verhaal schetsen.
- [Groep?-0809] Bedenk goed van te voren waarop je tekstanalyse gaat toepassen (chat, transcriptie, etc), dit heeft gevolgen bij het creeeren van je conceptueel model. Waarschijnlijk zul je ook je conceptueel model moeten aanpassen daarop.
- [Groep?-0809] Besteed niet te veel aandacht aan conceptueel model, je bent afhankelijk van je data.
- [Groep4-0910] Integendeel tot wat de groep hierboven aangeeft, is het niet nodig om te bedenken waar de analyse op wordt losgelaten (en de gevolgen daarvan voor het domeinmodel): het is alleen nodig om af te spreken op welk deel van de bron tags worden losgelaten. Bovendien kan, indien toch rekening gehouden wordt met de verschillende soorten van tekstbronnen, een algemene tag worden gespecificeerd die op het deel van de bron kan worden geplakt wat verder niet meegenomen wordt, zoals wij hebben gedaan.
Data vergaring
- [Groep?-0809] We hebben de questionaire via email gestuurd en ook de antwoorden via email ontvangen. Dit maakt een digitale verwerking goed mogelijk.
- [Groep?-0809] We hebben 15 mensen gemaild, waarvan we uiteindelijk 7 (bruikbare) antwoorden terug hebben gekregen. Het is dus handig om altijd meer mensen aan te spreken dan dat je uiteindelijk nodig zult hebben voor je onderzoek om significant te zijn (hoewel dat geen harde eis is voor deze cursus).
- [Groep?-0809] Vertrouw niet altijd op techniek, dus reserveer extra ruimte in je planning voor vergaring.
- [Groep?-0809] Doe een proefsessie, waarin je techniek, case en andere dingen kan testen zodat je niet voor onverwachte dingen komt te staan.
Data vastlegging
- [Groep?-0809] Het vastleggen van de data is gebeurt door de antwoorden van de experts te taggen. Hierdoor ontstaat een structuur van tags.
- [Groep?-0809] Deze tags bevatten de argumenten van de experts en metadata over de "belangrijkheid" en of het een argument voor of tegen is.
- [Groep?-0809] Op deze manier krijg je veel informatie over de data op een gestructureerde en overzichtelijke manier samen.
- [Groep?-0809] Afhankelijk van je onderzoek en de inrichting ervan, bedenk van te voren of je in staat bent een sessie te sturen. Dus of je invloed hebt op de proefpersonen.
- [Groep4-0910] Om zo gestructureerd mogelijk te werk te gaan is het handig om al bij het vastleggen van de data (het taggen) te denken aan de structuur. Dit is te doen door tags af te leiden uit het conceptueel model en de verbanden die in het model bestaan mee te nemen in de tags (voor details zie onze groepspagina, groep4-tekstanalyse 2009-2010)
- [Groep?-0809] Het plakken van een label op een zin is op zich noodzakelijk om de essentie ervan weer te geven.
Later kan het dan zo zijn dat je wel erg veel verschillende labels hebt. Het is achteraf risicovol om labels te gaan combineren omdat je informatie hebt verloren bij het labelen. De gehele context is er niet meer en dus is het label minder goed interpreteerbaar. Je moet dus vooraf, dus daar waar de tekst nog zo "rijk" mogelijk is de discussie voeren over de juistheid van het label.
- [Groep6-0809] Hou je niet vast aan vooraf vastgestelde tags, tijdens de Data structurering kwamen wij er achter dat de definities van tags nog grotendeels aangepast moesten worden.
- [Groep4-0910] Het probleem, genoemd in de opmerking van groep6 hier direct boven, is te ondervangen door verschillende niveaus van specificatie van tags te hanteren; van algemeen (meta-categorie) tot gedetailleerd (meta-categorie, nummer, onderdeel). Het kan ook ondervangen worden door tags te onderscheiden voor stukjes tekst waar twijfel over bestaat. Deze 'twijfel' tags kunnen eventueel aangevuld worden met de categorie waarover getwijfeld wordt waar het stuk tekst bij hoort.
Data structurering
- [Groep?-0809] We hebben argumenten uit de tekst getagt. Deze Tags hebben een interne structuur - een deel is een metatag; een ander deel is een inhoudelijke tag. Door deze opsplitsing hebben we veel meer informatie in een tag gestopt, dan b.v. de tags van del.icio.us.
- [Groep?-0809] Iedereen van onze groep heeft de tekst zelf met tags verwerkt. Daarna hebben we samen bediscussieerd welke tags "goed" zijn en die voor de verdere uitwerking gekozen. Daardoor hebben we een triangulatie in de structurering.
- [Groep?-0809] Op deze manier heeft iedereen de teksten naar eigen inzicht geanalyseerd, maar je kreeg ook inzicht in de visie/kijk van de anderen. Dat is erg leerzaam omdat het soms verbazingwekkend was hoe anders we naar eenzelfde argument keken.
- [Groep?-0809] Het aangeven welk stuk van de antwoorden semantisch is met betrekking tot de onderzoeksvraag, maakt het geheel nog overzichtelijker. Door hier expliciet naar te kijken, voorkom je dat je misschien onnodige argumenten toch gaan behandelen.
- [Groep?-0809] Achteraf terugkoppelen van de resultaten naar de leverancier van de informatie om een als het ware een goedkeuring te krijgen voor de juistheid van de gemaakte samenvatting of taggings. Wij hebben dit niet gedaan.
- [Groep1-0809] Maak zeer duidelijke afspraken hoe tags gebruikt moeten worden. Doe dit niet globaal in een bespreking, maar doe dit per tag want anders intepreteert iedereen het toch weer anders.
- [Groep4-0910] Door bij de data vastlegging al rekening te houden met de structuring van de data, is het niet nodig om de data verder te structuren (na het vastleggen); dit is immers al gedaan bij het vastleggen
- [Groep6-0809] Wat wij hebben gedaan is met meerdere personen achter 1 computer de teksten meermaals doorlopen om tags toe te kennen. Op deze manier werd er over elk stukje tekst (waar nodig) gediscusieerd en was iedereen het uiteindelijk eens met de toe te kennen tag. Elke keer dat we de tekst opnieuw doorliepen werden er weer aanpassingen gedaan omdat we teksten weer iets anders interpreteerden. Het resultaat was een correct gestructureerde tekst waar iedereen het mee eens was.
- [Groep4-0910] Het bovenstaande punt van groep 6 kan wat scherper worden gesteld: codeer in groepjes van 2: twee mensen zien meer dan een en op deze manier kan er naast een discussie voeren over de toe te kennen tag ook nog een redelijke hoeveelheid bronnen verwerkt worden in een bepaalde tijd
Data analyse
- [Groep?-0809] Frequentietabellen geven in één oogopslag een heldere samenvatting.
- [Groep?-0809] Onderschat de analyse niet, het lijkt eenvoudig maar kan toch een tijdrovend karwei zijn.
- [Groep1-0809] Probeer niet teveel onderscheid te maken in groepen als je datavergaring geautomatiseerd verloopt, je kruisverbindingen tussen categorieen en groepen nemen dan zo toe, dat je snel veel berekeningen moet doen. Voorbeeld: Wij hadden 2 groepen, opleidingsniveau (5 subgroepen) en volwassenheid 2 (subgroepen) en 30 tags (categorieen). Dit resulteerde in 250 verschillende berekeningen, dit is best veel werk als je dit uit een database moet trekken en in je code moet verwerken.
- [Groep1-0809] Neem een zorgvuldig besluit als het gaat om de software voor kwantitatieve tekstanalyse, overweeg ten zeerste het gebruik van software. Maar een zorgvuldig besluit! Ga ik voor standaard text mining software of voor maatwerk? Het eerste is een aanzienlijke investering qua "geld", terwijl het laatste een aanzienlijke investering qua tijd is ... onderschat dat laatste vooral niet. Vergeet ook niet de resultaten van de automatische analyse kritisch te bekijken, lijken de cijfers te kloppen?
- [Groep4-0910] Indien je een overzicht hebt gecreeërd van alle tags en tekst die met die tag is gecodeerd, schroom dan niet om er eens doorheen te lopen om een en ander te filteren. Het kan best zijn dat, ook al heb je een stukje tekst een bepaalde tag gegeven, je (bijna) niets hebt aan sommige stukjes die in het overzicht voorkomen, om een deelvraag dan wel de onderzoeksvraag te beantwoorden. Op deze manier voorkom je dat je tijd besteed aan getaggede tekst die je niet helpt een antwoord te formuleren op de deelvraag/onderzoeksvraag