Research and Development 1/^Archief/2008-2009/Botherkenning/Onderzoeksplan

Uit Werkplaats
Ga naar: navigatie, zoeken

Onderzoeksplan

Overlegpunten zijn schuingedrukt

Probleemstelling

Chatbots zijn doorgaans al na zeer korte 'gesprekken' ontmaskerd: je kunt al snel vaststellen dat het geen mens is die de letters typt, maar een computer. Wij stellen hierbij dat de kwaliteit van een chatbot gegeven is door het gemak waarmee de bot te ontmaskeren is. Om de kwaliteit van chatbots te verhogen, zal dus iets moeten worden gedaan aan de eigenschappen waaraan de bots worden herkend. De belangrijkste van die eigenschappen gaan wij vinden door middel van een onderzoek met proefpersonen. Vervolgens hopen we met de verkregen informatie een zinvol prototype te kunnen ontwikkelen, dat de kwaliteit van chatbots zal kunnen verhogen.

Onderzoeksvraag:

Wat zijn van chatbots de vijf belangrijkste eigenschappen waarmee ze zich onderscheiden van menselijke chatters?

Producten

  • Een lijst met de vijf belangrijkste problemen
  • Een prototype dat een probleem oplost (bij genoeg tijd meerdere)

Verantwoording

Chatbots mogen dan op zich niet zo direct nuttige artefacten zijn (tenminste zolang er geen goede bestaan), het is wél een heel directe vorm van kunstmatige intelligentie en daarom leert het onderzoeken en ontwikkelen ervan ons veel over dat vakbebied.

Theoretisch kader

Korte beschrijving van het kennisgebied. Ik doe een poging hier wat zinnigs neer te zetten.

Het doel van een chatbot is het simuleren van menselijke conversatie. Bij het bouwen van een chatbot ligt het dus voor de hand om te onderzoeken hoe menselijke conversatie werkt, en dat zo goed mogelijk na te bouwen. Helaas blijken (levende) mensen en (levenloze) computers toch fundamenteel anders te werken, dus dat gaat zomaar niet.

Menselijke conversatie

Mensen hebben een taalkennis en -ervaring, waarmee ze natuurlijke taal van iemand anders kunnen begrijpen en in natuurlijke taal boodschappen naar anderen kunnen overbrengen. Voor een zinvolle conversatie zijn dus twee dingen nodig: adequaat gebruik van taal en begrip van de betreffende informatie. Beide gaan nooit voor 100% goed: natuurlijke taal is ambigu en menselijk begrip is niet helemaal betrouwbaar. Dat zijn problemen die mensen samen kunnen oplossen, wat eigenlijk de derde voorwaarde voor zinvolle conversatie is.

Computergestuurde 'conversatie'

Aan die derde voorwaarde kunnen computers niet voldoen. Daarom zijn de eerste twee (beheersing natuurlijke taal en begrip van informatie) ook grote problemen. In praktijk zijn de chatbots van tegenwoordig dan ook niet zo gebouwd dat ze menselijke conversatie 'nadoen'. Wel zijn veel interessante technieken bedacht, die het mogelijk maken om toch tekst te genereren die door een mens bedacht lijkt te zijn. De truc hierachter is vaak dat dat ook wel waar is, alleen dan door een (andere) menselijke chatter op een eerder moment. Zo wordt het probleem van 'natuurlijke taal' voor een deel omzeild. Welke tekst dan op welk moment door de chatbot het best kan worden gekozen, wordt door de software uitgerekend op een manier die enigszins lijkt op hoe de neurale netwerken in menselijke hersenen werken. Er wordt gebruikgemaakt van een database van woord- en/of zin-associaties, die als het goed is steeds beter wordt, naarmate de chatbot van menselijke input 'leert'.

Methode

Deelonderzoek 1

  • We zoeken ongeveer 5 chatbots en 5 tot 10 proefpersonen.
  • Individueel laten we de proefpersonen een gesprek voeren met 2 of 3 bots, terwijl wij (steeds minimaal 1 van ons) erbij zitten.
  • Tijdens dat gesprek vragen we de proefpersonen zo veel mogelijk feedback over wat ze vinden over de 'menselijke geloofwaardigheid' van de reacties van de chatbot.
  • Met behulp van deze sessies en nog voor elke persoon een klein interview achteraf stellen wij een lijst samen met criteria. Deze lijst is een opsomming/onderverdeling van wat onze proefpersonen opviel aan niet-menselijk gedrag bij de chatbots.
  • Met deze lijst maken we een enquete die we gebruiken bij deelonderzoek 2. De enquetevragen worden neutraal, zonder waarde-oordeel, zodat de resultaten zo waardevol mogelijk zijn.

Simpeler idee: laat de proefpersonen botproblemen in volgorde van storendheid zetten.


Deelonderzoek 2

  • We zoeken ongeveer 30 nieuwe proefpersonen.
  • Elk laten we gesprekken voeren met zo veel bots als ze willen en aan de hand van die gesprekken de enquete invullen. ("Mits ze erbij zetten welke bots gebruikt zijn, alle chatbots zijn goed, maar het is waarschijnlijk goed om te weten welke chatbots gebruikt zijn door de testpersonen.. en de testpersonen minimaal vijf bots meegeven die ze kunnen gebruiken?" )
  • Uit de enquete-resultaten rekenen we het antwoord op de onderzoeksvraag uit.

Prototype

We vinden een open-source- of anderszins aanpasbare chatbot, kiezen uit het onderzoek een duidelijk verbeterpunt voor chatbots (aan de hand van nut en haalbaarheid) en passen onze bot zo aan dat dit punt significant is verbeterd. Of de verbetering inderdaad significant is, kunnen we daarna nog onderzoeken met proefpersonen.


Moet nog concreter

Tijd- en faseringsschema

Literatuur

-