Pohled na AI a chatboty pro byznys (2. díl)

Filip Korbel, 31. březen 2018 18:40 3 komentářů
Pohled na AI a chatboty pro byznys (2. díl)

Pojem AI (artificial intelligence, umělá inteligence) je v současné době asi nejfrekventovanějším výrazem posledních let v oblasti internetu nebo IT vůbec. V třídílném seriálu se podíváme, jak využít AI pro tvorbu chatbota. Druhý díl se věnuje především úspěšnost chatbotů, problematice historických dat, kvalitě chatbota a datových vědcům.

Ne-úspěšnost chatbotů a její příčiny

Lze tvrdit, že platí jedno univerzální pravidlo tří kontrolních otázek nového uživatele či zákazníka chatbota. Tyto tři první otázky, většinou rozhodují o tom, zda bude mít uživatel v chatbot důvěru, nebo bude odsouzen k tupému dovedení na řešení technického problému s pořízeným zařízením, výpadku služby nebo doporučení zimní bundy k nákupu.

Filip Korbel
Filip Korbel
Myslím, že velká část uživatelů nějaký nově vzniklý chatbot podrobila podobnému testu. Ti největší pionýři, kteří sledují nově vznikající chatboty, zahájí kontrolní salvu otázek na obecná konverzační témata. Provádějí vlastně test, jak se autoři chatbota popasovali s návrhem dialogu a jak jsou připraveni na to, že uživatel bude chatovat na jiné téma, než byl chatbot natrénován. Pokládáme otázky typu: „Jak se jmenuješ?“, „Jsi kluk nebo holka?“, „Kolik ti je?“ A podobná genderově nevyvážená témata. Většina chatbotů selže, protože se tvůrci soustředili pouze na jejich specializaci, ve které mohou odvádět perfektní práci.

Aby uživatel získal důvěru a měl pocit, že „hovoří“ s podporou nebo zástupcem shopu, očekává od chatbota jakýsi „lidský dotek“, nebo chcete-li osobnost.

Největším prohřeškem je syndrom gramofonové desky, který zákazníka také nejvíce odradí. Ta se zapíná na vysoké otáčky, pokud chatbot nerozumí otázce nebo formulaci uživatele. Do skonání světa pak opakuje jednu větu: „Rád bych ti pomohl, ale nerozumím zadání. Zkus se zeptat na něco jiného.“ Je to standardní chyba většiny botů, které nedokáží porozumět záměru uživatele, nepočítají s jiným tématem, než pro který byl bot natrénován. Jednoduše řečeno, chatbot jede v první třídě rychlíku a strojvůdce ztratí uživatelskou příručku a chatbot nemá nikde ve vagónu záchranou brzdu. Selže nejen syntaktická analýza (word embeddings), ale i předmět, který není součástí předtrénovaného datasetu, a nakonec bot není schopen identifikovat ani záměr. Tedy to, co vlastně uživatel zamýšlel. Poslední záchranou by mohla být analýza sentimentu a bot mohl usoudit, že mu začíná běžet čas, aby se dopídil nějaké reakce, kterou uživatel očekává a přepojil uživatele na své lidské kolegy za klávesnicí.

Uživatel se pokusí přeformulovat větu. Učiní tak jednou dvakrát a když pokaždé obdrží stejnou odpověď: „Rád bych ti pomohl, ale nerozumím zadání. Zkus se zeptat na něco jiného.”, tak dialogové okno zavře. Statisticky je velmi malá pravděpodobnost, že se někdy k výrobci nebo poskytovateli a jeho chatbotu někdy vůbec vrátí.

Kdo nemá historická data, nemá nic

Jednoduše řečeno, základem je co nejvíce dat, ještě více dat a pak ještě více dat. Nejlépe je to jejich celá historie, přepisy rozhovorů podpory a e-mailové konverzace, nebo množství obrazového materiálu na jedno téma. Definicí bohatství doby umělé inteligence je, že kdo má historická data, ten má to největší bohatství. Může se jednat o data sbíraná ve výrobě, finančních operacích, fotky, emaily a chaty. Je tedy evidentní, které konglomeráty mají dnes největší truhly plné pokladů.

Pro trénování strojového překladu s úrovní úspěšnosti 60 % je například zapotřebí mít alespoň slovník obsahující 30 000 frází. Pokud firma nebo startup plánuje opravdový deep learning v oblasti konverzace mezi dvěma jedinci, lze odhadnout jako nutné minimum alespoň 100 000 řádků chatu. To je dobré doplnit o jazykové datasety na dané odborné téma – slovníky, 50 knížek a například 500 narativních (výkladových) článků.

Kvalita chatbota

Kvalita chatbota se následně řídí kromě množství a kvality dat jeho trénováním, precizností, použitou platformou a modely. Chaty jedinců často obsahují zkratky a výrazy, které nejsou zcela běžné, vložené kusy kódu a hlášení, které celý trénovací proces mohou velmi komplikovat. Obecným pravidlem je, že řešení open source mají k dispozici více obecných datasetů, nebo již předtrénovaných modelů, které se dají do celého projektu lehce zapojit.

Čištění dat je také třeba věnovat velkou pozornost. Pomůckou můžou být metody word to vector, elastic search, IBM Watson Cognos apod. Bohužel to nefunguje tak, že se do IBM Watson, Google MLP nebo open source Tensorflow pošle PDF z koupené knížky na Amazonu. To je zcela mylná představa. Na druhou stranu lze ale také říci, že pokud stavíte chatbota na sice starších, ale ověřených bayessovských modelech a hobbsovských metodách, tak jsou dětské knihy s elementární jazykovou skladbou dobrým startem.

Nutné dovednosti ve firmě – data scientist

Pokud firma hledá rychlé nasazení chatbota se stávajícími lidskými zdroji, tak je IBM Watson Converstation Services tou nejrychlejší cestou. Pokud má k dispozici dostatek dat, produktových katalogů, nasbíraných údajů z měření nebo obrazového materiálu, tak je reálně použitelný chatbot na světě za nějaké tři měsíce. Kombinace více znalostních domén v jeden dialog, bude to stát více času a příprava a zejména hledáni datasetů celý projekt protáhne.

Pokud však chce organizace vytvořit chatbota, který se bude snažit simulovat lidskou konverzaci a bude schopen reagovat na banální otázky, které nemusejí zcela souviset s původním účelem chatbota, tak je třeba se připravit na šest měsíců intenzivnější práce. Potřebovat bude dnes velmi oblíbenou roli „data scientist“, která je dnes až trochu přeceňovaná. Prostě někoho, kdo se dokáže podívat na hromadu dat, setřídit je, vyčistit a zajisti jejich obsah, které se v dané problematice očekává. Dále bude potřebovat někoho, kdo si rozumí s Google NLP a ML, nebo variantně s open source Tensorflow a frameworky Keras nebo Cafee. Dva lidé jsou ideální sestava. Práci si mohou rozdělit na základní byznysový účel chatbota a obecnou konverzační část. Vedlejší konverzační větev chatbota může čerpat svoje znalosti pro trénování z volně dostupných zdrojů Wiki, reddit.com, počasí, zpravodajských webů apod.

V závěrečné části seriálu se podrobněji podíváme mimo jiné na příklady postavení chatbota a typickou technologickou výbavu pro chatbota.

Filip Korbel donedávna zastával pozici obchodního ředitele IBM pro segment Commercial a CSP v Čechách a na Slovensku.

Viz také Pohled na AI a chatboty pro byznys (1. díl)


Komentáře

Vojta #0
Vojta 02. duben 2018 17:05

Je vidět, že článek psal ex-obchodní ředitel, který se na vývoji asi nepodílel.

Filip Korbel 05. duben 2018 00:00

Díky za komentář. Ja bych počkal na další díly, kdy se podíváme na srovnaní Bayesových modelů, Hobsse a Kerasu :-)

rushen 10. duben 2018 19:35

Chci dělat oukitel častěji smartphony,jako tyhle - http://www.deviceranking.cz/phone/2287/oukitel-k6000-premium

RSS 

Komentujeme

Agilita a devops, přepracování a vyhoření

Pavel Houser , 12. červenec 2018 12:30
Pavel Houser

Michael Cote na The Register upozorňuje na častý problém: nové „agilní“ metody vývoje, všechny příst...

Více







RSS 

Zprávičky

Internet Mall snížil ztrátu, tržby mu vzrostly na 7,2 miliardy Kč

ČTK , 18. červenec 2018 17:29

Internet Mall mj. investuje do distribučního centra v Jirnech u Prahy, které by mělo sloužit 7 střed...

Více 0 komentářů

Google dostal kvůli Androidu od EK rekordní pokutu 4,34 mld. eur (aktualizace)

ČTK , 18. červenec 2018 13:26

Google využil Android k upevnění dominantní pozice svého internetového vyhledávače, uvádí EK....

Více 0 komentářů

EK oznámí rozhodnutí o pokutě pro Google

ČTK , 18. červenec 2018 12:10

Google dostal od EK za zneužití dominantního postavení již koncem loňského června pokutu 2,42 miliar...

Více 0 komentářů

Kalendář

04. 08.

09. 08.
Black Hat USA 2018
09. 08.

12. 08.
DEF CON 26
06. 09.

07. 09.
Humusoft Technical Computing Camp 2018

Starší zprávičky

Americká Workday koupila českou firmu Stories

ČTK , 18. červenec 2018 09:00

Českou firmu Stories založili tři datoví odborníci, kteří si dali za cíl změnit řízení velkých firem...

Více 0 komentářů

Slovensko zablokovalo přístup k desítkám webů s hazardními hrami

ČTK , 18. červenec 2018 08:00

Na návrh slovenského Finančního ředitelství soudy nařídily telekomunikačním operátorům zamezit příst...

Více 0 komentářů

Český startup CleverFarm buduje v Srbsku síť IoT

Pavel Houser , 17. červenec 2018 10:00

Český startup CleverFarm, který zavádí moderní technologie do zemědělství, pomáhá s budováním IoT sí...

Více 0 komentářů

Akcie Netflixu oslabily, Amazon a Disney konkurují

ČTK , 17. červenec 2018 09:36

Počet nových předplatitelů a tržby internetové televize Netflix zaostaly ve druhém čtvrtletí za oček...

Více 0 komentářů