Zvídavá umělá inteligence?

Při vývoji umělé inteligence formou učení se nejčastěji využívá metody odměn – pozitivního posilování.

Vědci University of California v Berkeley ve studii publikované na arXiv (preprint, tj. články, které dosud neprošly oponenturou) navrhují novou metodu posilování při strojovém učení. Algoritmus se prý při něm má vyvíjet i bez toho, aby dostával silnou zpětnou vazbu v podobě odměn, na základě zvědavosti/zvídavosti (curiosity). Do systému měla být zvědavost implantována jako jeho vnitřní vlastnost.

Tímto způsobem by prý mělo být možné optimalizovat fungování umělé inteligence v mnohých situacích reálného světa včetně robotiky. Učení na základě posilování po provedení úspěšných kroků je nejjednodušší cestou vývoje, ale tradiční metody mnohdy selhávají, protože vstupů z prostředí může být málo; úkol se třeba nepodaří dokončit, takže v tradičním hodnocení se žádné body nezískají o chování není posíleno/odměněno. Systém by měl ale i tak zkoumat okolní prostředí a vytvářet si nové reakce či zkoušet řešit části úkolů, třeba i s tím, že takto získané dovednosti použije později.

Jak si takový obecný popis představit konkrétněji? Autoři výzkumu uvádějí, že jejich softwarový agent se takto „bez odměn“ naučil pohybovat chodbami herních prostředí typu Doom a Super Mario Bros. Zvědavý systém nebavilo stále tlouct do zdi a místo toho raději zkoumal své okolí, což ho nutilo naučit se pohybovat „správně“ (i bez toho, že by za samotné vyhýbání zdem bylo pozitivně posilováno).

Po pravdě řečeno, pro člověka, který není specialistou na strojové učení, to stejně celé nezní zrovna srozumitelně; takto bude systém zřejmě odměňován také, ale spíš za projev zvídavosti než přímo za výsledky, jak se to ale liší? Navíc, nemůže toto vést naopak k tomu, že se už jednou vytvořená optimalizace v dalším kroku rozbije, protože systém puzen zvědavostí zkusí něco jiného? Nebo je to prostě metoda, jak alespoň nějak využít strojový čas (či zařízení ve fyzickém světě), pokud systém/robot jinak nemá co dělat?

Zdroj: TechXplore.com

Exit mobile version