Překladač Googlu začne využívat neuronové sítě

Pavel Houser , 10. listopad 2016 15:30 0 komentářů
Překladač Googlu začne využívat neuronové sítě

Google Translator dosud používal především statistiku – při této metodě se věty trhají na kratší fráze, u nich se najde, jak již byly přeloženy, a jednotlivé úseky se překládají víceméně zvlášť (tzv. Phrase-Based Machine Translation).

I když samozřejmě počítačové překlady vzbuzují dosud tu a tam úsměv, funguje to překvapivě dobře. Google Translator by dosud de facto (především) verzí systému s překladovou pamětí.

Každý přístup má ale své limity, takže nyní Google do systému zahrnuje i neuronové sítě, které se snaží chápat/překládat věty jako celek. Obě metody se kombinují. Testy na veřejně přístupných sadách dat údajně už dávají slušné výsledky, i když vývoj podobných systémů je vlastně věčný.

Neuronová síť (Google Neural Machine Translation, GNMT) má údajně představovat vylepšení hlavně pro překlady mezi jazyky, které jsou si zcela nepodobné, třeba mezi angličtinou a mandarínskou čínštinou. Google publikoval statistiku kvality překladu podle toho, zda byla použita pouze dosavadní statistická metoda, neuronová síť nad ní nebo i lidský přístup.

Zajímavé je, že třeba pro překlady mezi angličtinou a francouzštinou už lidé nedokázali výsledek strojového překladu prakticky vylepšit (což se posuzovalo tak, že kvalitu hodnotili jiní lidé). Přístup založený na neuronových sítích může ale stále dělat některé chyby. Zmiňují se třeba špatné tvary slov (chybné pády/skloňování) ve výstupním jazyce, nepochopení toho, co jsou vlastní jména, chápání textu na úrovni vět může vést i k chybám vzhledem ke kontextu na úrovni odstavce nebo ještě širšího celku.

Zdroj: TechXplore.com, Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (ArXiv.org)

Poznámky:

Ze zdroje není jasné, zda dostupný Google Translator už neuronovou síť využívá i standardně a pro překlady mezi češtinou. Aktuálně drobný test: Při automatickém překladu původního textu AJ – ČJ se nevyskytl častý problém, popletení/obrácení záporu.

Google v ČR čelí konkurenci Seznamu, takže se předpokládá, že své služby pro nás optimalizuje více než pro jiné země srovnatelné velikosti. Platí to i pro Google Translator? Nebo jsou naopak překlady z/do češtiny negativně ovlivněny tím, že pro češtinu nemáme dostatečnou bázi frází? Či je to od určitého množství už jedno? Jak vypadá kvalita Google Translator pro češtinu ve srovnání třeba s polštinou?


Komentáře

RSS 

Komentujeme

Intel Inside aneb všichni jsme načipováni

Petr Zavoral , 10. prosinec 2017 18:20
Petr Zavoral

V Havlově hře Audience přesvědčuje Sládek Ferdinanda Vaňka, aby donášel sám na sebe. Z pohledu letoš...

Více







Kalendář

09. 01.

13. 01.
CES 2018
18. 01.

19. 01.
itSMF 2018
29. 01.

30. 01.
G2BTechEd

RSS 

Zprávičky

Rozhodnutí ÚS o odložení EET může vést k žalobám na stát

ČTK , 16. prosinec 2017 09:00

Tisíce a možná desítky tisíc podnikatelů a zástupců různých profesí se na třetí a čtvrtou vlnu EET u...

Více 1 komentářů

E-shopy vyjmutí plateb kartou z EET vítají, přišlo prý ale pozdě

ČTK , 16. prosinec 2017 08:00

Podle ministerstva financí ze zrušení povinnosti evidovat platby kartou pro poplatníky nevyplývá nut...

Více 0 komentářů

Nové Embarcadero RAD Studio obsahuje i licenci pro aplikační server

Pavel Houser , 15. prosinec 2017 10:00

Vývojové prostředí nabízí i nové prvky knihovny vizuálních komponent a nové možnosti grafického uživ...

Více 0 komentářů

Starší zprávičky

Botnet Necurs se vrátil a šíří nový ransomware

Pavel Houser , 15. prosinec 2017 09:00

V listopadu došlo k oživení botnetu Necurs v souvislosti s distribucí nového ransomwaru Scarab. ...

Více 0 komentářů

Jižní Korea zvažuje, že zdaní obchody s bitcoinem

ČTK , 15. prosinec 2017 08:00

Vláda se obává dopadů, které s sebou může přinést náhlý cenový propad kryptoměn....

Více 0 komentářů

O2 v dalších dvou letech vykoupí až 1,25 % vlastních akcií

ČTK , 14. prosinec 2017 10:00

Cílem nového programu je optimalizace kapitálové struktury, uvedla firma....

Více 0 komentářů

10 spotřebitelských trendů pro rok 2018

Pavel Houser , 14. prosinec 2017 09:00

Sluchátka budeme nosit 24 hodin denně, i během spánku. Umělá inteligence bude vytvářet reklamy. Koli...

Více 0 komentářů