Překladač Googlu si sám vyvinul univerzální sémantiku

Pavel Houser , 14. únor 2017 16:00 0 komentářů
Překladač Googlu si sám vyvinul univerzální sémantiku

Google na podzim loňského roku oznámil rozšíření svého překladače o technologie strojového učení a neuronových sítí. Poprvé v historii strojových překladů je tak nyní možné překládat i mezi jazyky, jejichž páry nejsou přímo vloženy do systému a ten na ně ani nebyl trénován.

Překladač Googlu existuje už asi 10 let a neustále se rozšiřuje. Nyní podle Googlu podporuje 103 jazyků a každý den se prostřednictvím systému překládá přes 140 miliard slov. Kvalita se do určité míry zlepšuje prostě samospádem, jak přibývá „párových“ dokumentů, přesto však statistický přístup k překladu už začal narážet na své limity. Tak například systém podporující 103 jazyků potřebuje subsystémy pro jejich každý pár, což s sebou nese mj. i náklady na výpočetní výkon a další „počítačové“ prostředky stejně jako nutnost spravovat všechna tato prostředí vedle sebe.

Google proto na podzim loňského roku začal svůj překladač rozšiřovat o nové technologie, především neuronové sítě/strojové učení. Výsledkem byl systém Google Neural Machine Translation (GNMT). Mike Schuster, Melvin Johnson a Nikhil Thorat z Googlu nyní vysvětlují, že pro překlad v tomto systému není třeba neuronovou síť trénovat na všechny dvojice jazyků, ale zvládne i kombinace, které při tréninku do systému vůbec nebyly zadávány; autoři tomu říkají „zero-shot“. Vstupní text se prostě už jen označuje tokenem, který specifikuje, do jakého jazyka se má překládat. Je to údajně vůbec poprvé, co strojové překladače zvládnou něco podobného.

Samozřejmě se tím nemyslí, že by se překlad prováděl přes nějaký jazyk třetí (např. metodou „vše přes angličtinu“), i když… V průběhu učení sítě se totiž v systému vytváří abstraktní vrstva, reprezentace jednotlivých sdělení, kterou můžeme chápat právě jako univerzální jazyk („interlingua“), přes který pak prochází překlad. Tato vrstva má především podobu sémantiky (významu), neomezuje se na analýzu gramatických vztahů ve zpracovávaných textech.

Systém je díky tomu univerzální, přidávání dalších jazyků nevyžaduje žádnou změnu jeho architektury. Příslušnou vnitřní sémantickou reprezentaci si překladač vytváří automaticky, není to tak, že by v Googlu za tímto účelem navrhovali nějaký vlastní přemosťující jazyk typu esperanta. Programátoři Googlu tuto sémantiku v systému dokáží pouze zpětně najít, když zjistí, že odpovídajícím větám v různých jazycích systém postupně přiřazuje stejné či podobné atributy, které jsou mnohem propracovanější, než by odpovídalo pouze párování odpovídajících si frází. Tyto výsledky jsou samozřejmě zajímavé i z obecnějšího pohledu – mají vztah k otázkám o povaze lidského jazyka, jeho zpracování v mozku (máme také nějaké vnitřní reprezentace nezávislé na konkrétních jazycích?) apod.

Zdroj: Google Blog a další


Komentáře

RSS 

Komentujeme

Intel Inside aneb všichni jsme načipováni

Petr Zavoral , 10. prosinec 2017 18:20
Petr Zavoral

V Havlově hře Audience přesvědčuje Sládek Ferdinanda Vaňka, aby donášel sám na sebe. Z pohledu letoš...

Více







Kalendář

09. 01.

13. 01.
CES 2018
18. 01.

19. 01.
itSMF 2018
29. 01.

30. 01.
G2BTechEd

RSS 

Zprávičky

Rozhodnutí ÚS o odložení EET může vést k žalobám na stát

ČTK , 16. prosinec 2017 09:00

Tisíce a možná desítky tisíc podnikatelů a zástupců různých profesí se na třetí a čtvrtou vlnu EET u...

Více 0 komentářů

E-shopy vyjmutí plateb kartou z EET vítají, přišlo prý ale pozdě

ČTK , 16. prosinec 2017 08:00

Podle ministerstva financí ze zrušení povinnosti evidovat platby kartou pro poplatníky nevyplývá nut...

Více 0 komentářů

Nové Embarcadero RAD Studio obsahuje i licenci pro aplikační server

Pavel Houser , 15. prosinec 2017 10:00

Vývojové prostředí nabízí i nové prvky knihovny vizuálních komponent a nové možnosti grafického uživ...

Více 0 komentářů

Starší zprávičky

Botnet Necurs se vrátil a šíří nový ransomware

Pavel Houser , 15. prosinec 2017 09:00

V listopadu došlo k oživení botnetu Necurs v souvislosti s distribucí nového ransomwaru Scarab. ...

Více 0 komentářů

Jižní Korea zvažuje, že zdaní obchody s bitcoinem

ČTK , 15. prosinec 2017 08:00

Vláda se obává dopadů, které s sebou může přinést náhlý cenový propad kryptoměn....

Více 0 komentářů

O2 v dalších dvou letech vykoupí až 1,25 % vlastních akcií

ČTK , 14. prosinec 2017 10:00

Cílem nového programu je optimalizace kapitálové struktury, uvedla firma....

Více 0 komentářů

10 spotřebitelských trendů pro rok 2018

Pavel Houser , 14. prosinec 2017 09:00

Sluchátka budeme nosit 24 hodin denně, i během spánku. Umělá inteligence bude vytvářet reklamy. Koli...

Více 0 komentářů