Umělá inteligence se sama naučila složit Rubikovu kostku

ITBiz.cz , 26. srpen 2018 11:30 0 komentářů
Umělá inteligence se sama naučila složit Rubikovu kostku

Algoritmy pro složení Rubikovy kostky jsou známy už dávno, jeden univerzální postup umožňující uspět v každé pozici už ostatně měl sám vynálezce hlavolamu. Posléze se podařilo dokázat, že z každé pozice lze kostku složit maximálně 26 tahy.

Nicméně všechny tyto programy byly lidským dílem. V případě šachů a Go se podařilo nejen napsat algoritmy, které hrají úspěšněji než člověk, ale nedávno také tyto programy nechat vyvinout samy metodami strojového učení – tak, že hrály proti sobě. Tento postup ale u Rubikovy kostky naráží na mnohé překážky. I zde sice programy mohou hrát „proti sobě“ (vyhrává, kdo složí rychleji), potíž je však v tom, jak různé postupy odměňovat. V šachách nebo Go mají tahy různou sílu a zlepšují nebo zhoršují pozici různým způsobem. U Rubikovy kostky ale existuje pouze nejrychlejší postup, ostatní tahy jsou nejen chybné, ale navíc chybné vlastně všechny stejně (nakonec každý tah lze vrátit, takže žádný, ani ten nejhorší, nemůže řešení prodloužit více než o 2 tahy). Také lze těžko z nějaké pozice na první poznat, zda má blíže k řešení než jiná (u šachů hraje roli třeba materiální výhoda) – a především příslušná pravidla/odhady nemůžeme zadat předem, ale systém si je musí umět vyvinout sám.

Stephen McAleer a jeho spolupracovníci z University of California v Irvine nakonec problém rozlouskli. Museli ovšem k tomu navrhnout novou metodu hlubokého učení, kterou nazvali autodidaktická interace. Systém si tímto způsobem dokáže právě vyvinout odhad, jaké pozice jsou nadějnější než jiné, a z toho pak začne hodnotit relativní sílu různých možných tahů (autoři výzkumu mluví o „čistém posilování“). Přitom se vychází z konečného stavu složené kostky a program se ptá, kolika „rozházeními“ lze dospět do pozice, která je podobná té posuzované – pracuje se přitom s obecnými vzory, nikoliv hrubou silou. Výsledně si neuronová síť vyvinula algoritmus DeepCube, který není nejrychlejší, ale vyřeší 100 % zadání s mediánem 30 tahů. Což je lepší nebo cca stejné jako výsledek nejlepších lidských řešitelů, kteří využívají své vlastní obecné vzory (doménové znalosti).

Autoři výzkumu uvádějí, že jejich přístup mohl být využitelný v řadě úloh – autodidaktická iterace by se kromě řešení jiných her (uvádí se Sokoban, Montezuma's Revenge…) třeba mohla naučit odhadovat terciální strukturu proteinů ze zadané sekvence aminokyselin.

Zdroj: TechnologyReview.com a další


Komentáře

RSS 

Komentujeme

Co s genetickými databázemi?

Pavel Houser , 07. říjen 2018 15:00
Pavel Houser

Jak bylo oznámeno již v letos dubnu, tzv. zabijáka z Golden State odhalily veřejné genetické databáz...

Více

Kalendář

16. 10. Digitální podpora výroby
17. 10.

19. 10.
Future Forces Forum 2018
17. 10. Konfera 2018







RSS 

Zprávičky

Tržby operátorů loni stouply o 2,4 % na 117,3 miliardy Kč

ČTK , 16. říjen 2018 14:48

Loni byl u tržeb ze služeb poskytovaných prostřednictvím mobilní sítě zaznamenán meziroční nárůst o ...

Více 0 komentářů

Robotická automatizace zvýšila produktivitu ve 3/4 českých firem

Pavel Houser , 16. říjen 2018 11:31

Jen 4 % dotázaných společností provozuje více než 50 robotů....

Více 0 komentářů

Zemřel spoluzakladatel Microsoftu Paul Allen

ČTK , 16. říjen 2018 10:28

V roce 1974 spolužáci ze střední školy Allen a Gates vymysleli programovací jazyk Basic. ...

Více 0 komentářů

Starší zprávičky

Dodavatelé vojenských technologií Harris a L3 Technologies se dohodli na fúzi

ČTK , 16. říjen 2018 08:00

Obě firmy vyrábějí satelity pro sledování a širokopásmové komunikační systémy pro armádu a policii....

Více 0 komentářů

Falešné bankovní aplikace opět pronikly do Google Play

Pavel Houser , 15. říjen 2018 12:27

Objeveno šest aplikací, které vytváří dojem, že pochází od renomovaných bankovních institucí nebo sm...

Více 0 komentářů

Pentagonu unikla data o vojácích a civilních zaměstnancích

ČTK , 15. říjen 2018 08:00

Federální zpráva nedávno varovala před nedostatečnou kybernetickou ochranou vojenských zbraňových pr...

Více 0 komentářů

Google se odvolal proti rekordní pokutě od EK za Android

ČTK , 12. říjen 2018 12:35

Případ je poměrně složitý a mohlo by trvat i několik let, než soudci rozhodnou....

Více 0 komentářů