V mluvené konverzaci se lidé v rozhovoru tak či onak střídají. Neměli by si příliš skákat do řeči, ale také by neměli mlčet, když na ně „přijde řada“. To znamená, že udělá-li druhá strana přestávku, je čas odpovědět. Někdy. Ale někdy také ne. Chatbotům toto zatím moc nejde – může to pak vypadat, že umělá inteligence je poněkud drzá nebo naopak příliš nesmělá nebo prostě reaguje divně.
Co s tím? Na Tufts University (studie prozatím publikována na preprintovém serveru arXiv) nejprve při výzkumu vyvrátili dosud převažující názor, že to, kdy vstoupit do konverzace, lidé odhadují z neverbálních signálů. Kritické body (transition relevant places, relevantní místa pro přechod, TRP) se podle tohoto názoru měly posuzovat podle signálů očí, intonace, zpomalení řeči, přestávek apod. Podle nového výzkumu to vše sice trochu pomáhá, ale pokud odstraníme slova a necháme lidem jen prozódii – melodii a rytmus řeči, dejme tomu, jako by člověk mluvil přes ponožku – už vhodné TRP rozpoznat nedokážou. A naopak – poskytneme-li lidem pouze jazykový obsah v monotónní řeči, lidé zvolí většinu stejných TRP, které by použili v přirozené konverzaci. Ukazuje se tedy, že hlavním vodítkem pro vstup do rozhovoru je samotný jazykový obsah.
Velkým jazykovým modelům to ovšem moc nejde (poznámka: možná naopak při mluvené konverzaci vycházejí spíše ze vzorů právě mimoverbálních, jako jsou snadno měřitelné délky pauz apod.?); snad i proto, že jazyku v pravém smyslu vlastně nerozumějí?
Potíž spočívá tak či onak asi v tom, na čem je AI vyškolena. Velké jazykové modely, včetně těch nejpokročilejších, jako je ChatGPT, byly vycvičeny na rozsáhlém souboru dat psaného obsahu z internetu – záznamů ve Wikipedii, online diskusních skupin, firemních webových stránek, zpravodajských webů. V tomto souboru dat však chybí významné množství přepsaného mluveného konverzačního jazyka, který je nespisovný, používá jednodušší slovní zásobu a kratší věty a má jinou strukturu než psaný jazyk.
Výzkumníci se domnívali, že by bylo možné vzít velký jazykový model vycvičený na psaném obsahu a vyladit jej dodatečným tréninkem na menší sadě konverzačního obsahu, aby se dokázal přirozeněji zapojovat do konverzace. Když to vyzkoušeli, zjistili, že replikace konverzace podobné té lidské má stále určitá omezení. Výše uvedené zjištění naznačuje, v čem by mohl být problém.
„Předpokládáme, že tyto velké jazykové modely dokážou správně porozumět obsahu. To ale nemusí být pravda,“ uvádí spoluautor studie Vasanth Sarathy z Tufts University. „Předpovídají další slovo na základě povrchních statistických korelací.“
Je možné, že tato omezení lze překonat předběžným tréninkem velkých jazykových modelů na větším množství přirozené konverzace. V porovnání s psaným obsahem na internetu ale prostě není k dispozici zdaleka tolik nahrávek a přepisů rozhovorů.
Muhammad Umair et al, Large Language Models Know What To Say But Not When To Speak, arXiv (2024). DOI: 10.48550/arxiv.2410.16044
Zdroj: Tufts University / TechXplore.com, přeloženo / zkráceno