Hur kommer det sig att upplevelsen i tal botar är svårt? Hela bot-branschen blir förlöjligad i (visserligen roliga) videor som dessa:
Om botar ska vara ett användbara, måste de så klart vara bättre än så här. Tyvärr ser jag många botar som ger den här nivån av upplevelse. Jag pratade nyligen med en före detta kollega som upplevt samma sak med svenska i Norrland som skottarna i hiss-videon. De valde att aldrig exponera sin bot för kunder, för så här får det helt enkelt inte vara. Och det behöver inte alls vara så här. Det kan vara klokt att gå försiktigt fram med röst-botar, men en dialog med en bot i en skriven chatt kan ju var riktigt bra. Förra veckan släppte dessutom Microsoft, som är en av de ledande i bot-verktygsbranschen, verktyg som gör bot-byggande bättre, men mer om det, och om hur det blir bra - sist.
Varför blir det så fel
Så länge boten hör rätt och förstår rätt, går vanligen allt som på räls. Upplevelsen är toppen, och den som pratar med boten får bra och snabb hjälp. Google visade till exempel extremt imponerande exempel på bokningsdialoger för ett och ett halvt år sedan.
Ändå levererar många botar riktigt trista upplevelser. Om sedan röst-tolkning kommer in är det ytterligare en felkälla. Extra frustrerande är det när man ser att tolkningen är rätt fram till det sista ögonblicket, då hela meningen blir fel. De röst-till-tal-tjänster som finns presenterar helt enkelt sitt mest sannolika resultat och är nöjda med det. Att tala om för datorn att den hade mer rätt på vägen går inte. Enda sättet att försöka få boten att förstå är att säga samma sak med andra ord – och det är långt ifrån intuitivt. Kombinationen av ytterligare en felkälla med mycket begränsade möjligheter att rätta till saker som går snett, gör en röstbaserad bot klart mer riskabel som satsning än en textbaserad.
Google hanterade svårigheterna snyggt. För det första styrde de konversationen. Det var inte en bot som skötte bokningen, det var en bot som ringde upp. Det är den enklare delen av dialogen, eftersom boten styr dialogen. Den vet helt enkelt vad den ska säga härnäst. Dessutom: Tänk på att de enbart frågade om ett fåtal datapunkter. Hör boten fel, är det hanterbart att försöka rätta till. På ett snyggt sätt han man helt enkelt minimerat riskerna med att dialogen går fel; man har valt ett enkelt scenario, man styr samtalet själv och man har tränat boten mycket för att säkerställa att den förstår alla svar som kommer. Helt rätt, om jag får tillåta mig att recensera Google. Man måste börja någonstans. Först när det enkla funkar bra, är det dags att börja arbeta på mer avancerade scenarier.
Hur mycket jobb är det att träna boten då? Normalt räcker det att lägga någon timma i veckan på att analysera och rätta fel. Det är verkligen lite jobb och gör hela skillnaden. Efter ett par månader svarar boten typiskt vettigt på 95% av alla frågor. Resten hanteras manuellt. Men det kräver engagemang. I takt med att användare lär sig att boten kan svara, kommer de att ha högre förväntningar och ställa mer avancerade frågor.
Värt att reflektera över är att det inte är när boten gör rätt som problemen uppstår, som i Google-exemplet nyss. Det är när boten fattar fel som det lätt spårar ur. Botar har ett ytterst begränsat medvetande. De kan det de tränats till och lyssnar inte in på ett samtal som en människa, utan för dialogen framåt som den maskin de är. Upplevelsen blir snabbt frustrerande om boten missförstår. Mardrömmen är om rättningsförfarandet blir så komplicerat att det skapar egna fel.
Därför behöver vi lyssna på vad våra kunder frågar boten, och lära den bli bättre på det som folk faktiskt vill veta. Vi han lära boten ställa följdfrågor eller kontrollfrågor, så att vi hanterar samtal som tidigare gått fel. När vi behöver samla in mer data, eller om ett alternativ är beroende av ett annat, behöver vi vara extra noggranna med träning och att iterera förbättringar. Det är lätt att göra förbättringarna, men man måste prioritera att göra dem. Boten gör dem inte själv. Hoppar vi över det arbetet, skapar vi exempel som i filmerna som gör sig roliga över botar.
Att lyssna som en människa
De botar vi bygger idag är väldigt begränsade i sin förmåga att tolka omvärlden, och dessutom ofta specialiserade på en uppgift. Tekniken har inte kommit så långt så att den kan ha en allmän uppfattning om vad som händer runtomkring och anpassa sin tolkning av inkommande kommunikation till det. Ett enkelt exempel: Även om en bot skulle fatta att den har fel, och ber dig en bot ber dig repetera, är risken överhängande att du säger samma sak igen och den i sin tur upprepar sina tolkningsfel, med resultatet att du fastnar i samtalet. Röst gör det dessutom värre, eftersom det kan bli fel såväl i tolkningen från tal till text som i tolkningen av text till förståelse av vad användaren menar.
Vare sig vi diskuterar en talande bot eller en skrivande bot, ställer bristande förmåga att lyssna in till det. När vi människor inte förstår, lär vi oss normalt av våra misstag. Vi är vana vid att hantera att vi inte uppfattar världen 100% korrekt. Vi verifierar, korrigerar vad vi uppfattar, ställer kontrollfrågor när det verkar konstigt, minns sammanhang och anpassar lyssnandet därefter. Det gör inte en bot. Men i viss utsträckning kan vi faktiskt lära den det.
Nya verktyg ger nya möjligheter
De flesta misstag kan elimineras med lite analys av de frågor boten får. Dessutom kommer nu tekniken till hjälp. Utnyttja att botar börjar förstå sammanhang. Enkla verktyg för bot-byggande, som Microsofts QnAMaker har fått förmågan att ställa följdfrågor baserade på sammanhang – utan programmering. Själva lärandet när man ser vilka fel som uppstår och hur de kan hanteras, är visserligen detsamma även när tekniken förbättras, men det blir lättare att hantera mer komplexa frågor – till exempel om boten behöver ställa en motfråga för att kunna be ett bra svar.
Dessutom:
· Att sätta igång startar också ett värdefullt lärande om användares egentliga frågor och beteende.
· Vi som bot-byggare behöver lära boten hantera att förstå när något inte stämmer. Beroende på vad som sägs, som till exempel ””Oj då, jag stavade fel” eller ”Det var inte det jag menade”, så behöver vi lära våra botar att hantera det, och agera utifrån det i sammanhang man är i konversationen.
· Den version av Microsofts språkigenkänning LUIS som släpptes i veckan har till exempel möjlighet att hantera om användaren använder prepositioner för att referera till tidigare saker i samtalet. Du kan helt enkelt säga ”den” eller ”hon” eller ”dit” och boten kan förstå vem eller vad du syftar på.
På röstsidan pratar man om ”context aware speech recognition”, och utvecklingstakten på området är hög, så jag ser framtiden an med tillförsikt.
Personligen är jag övertygad om att förmågan att lära av ett samtal är central i en mänskligare bot-upplevelse. Det är helt enkelt mänskligt att göra fel och lika mänskligt att rätta till sina misstag. Vi människor är inte perfekta, och vi har lärt oss att hantera det. Ska våra digitala kollegor bli bra, behöver även de vara lite följsamma - för de har också brister, och behöver rätta till dem minst lika mycket som vi. Därför behöver en bot kunna förstå när en användare ber att får rätta till eller ändra på något. Att hantera mina tre punkter ovan är ganska lite jobb, men ger användaren en helt annorlunda upplevelse.
Vi får absolut inte hoppa över det här. Att bygga en enkel bot som kan svara på diverse frågor tar bara några timmar. Det kanske är en del av problemet. Det är helt enkelt för lätt att bygga en bot som visserligen svarar på frågor men ger en användaren en dålig upplevelse. Verktygen gör bas-arbetet så bra at vi hoppar över bitarna av arbetet där vi måste tänka själva. Visst - de nya verktygen är där för att användas, och det borde ge oss mer tid över att arbeta med kvalitet i konversationen.
Så hjälp mig och alla andra att får färre ”skotska” upplevelser och fler mänskliga bot-konversationer. Döda inte en teknik som har enorma möjligheter att hjälpa till med halvhjärtade implementationer och traditionell projektledning. Iterera. Förbättra. Tills det blir en mänsklig upplevelse. En #brobot.
2019-11-13 21:23
Comments