Překladač Googlu začne využívat neuronové sítě

Pavel Houser , 10. listopad 2016 15:30 0 komentářů
Překladač Googlu začne využívat neuronové sítě

Google Translator dosud používal především statistiku – při této metodě se věty trhají na kratší fráze, u nich se najde, jak již byly přeloženy, a jednotlivé úseky se překládají víceméně zvlášť (tzv. Phrase-Based Machine Translation).

I když samozřejmě počítačové překlady vzbuzují dosud tu a tam úsměv, funguje to překvapivě dobře. Google Translator by dosud de facto (především) verzí systému s překladovou pamětí.

Každý přístup má ale své limity, takže nyní Google do systému zahrnuje i neuronové sítě, které se snaží chápat/překládat věty jako celek. Obě metody se kombinují. Testy na veřejně přístupných sadách dat údajně už dávají slušné výsledky, i když vývoj podobných systémů je vlastně věčný.

Neuronová síť (Google Neural Machine Translation, GNMT) má údajně představovat vylepšení hlavně pro překlady mezi jazyky, které jsou si zcela nepodobné, třeba mezi angličtinou a mandarínskou čínštinou. Google publikoval statistiku kvality překladu podle toho, zda byla použita pouze dosavadní statistická metoda, neuronová síť nad ní nebo i lidský přístup.

Zajímavé je, že třeba pro překlady mezi angličtinou a francouzštinou už lidé nedokázali výsledek strojového překladu prakticky vylepšit (což se posuzovalo tak, že kvalitu hodnotili jiní lidé). Přístup založený na neuronových sítích může ale stále dělat některé chyby. Zmiňují se třeba špatné tvary slov (chybné pády/skloňování) ve výstupním jazyce, nepochopení toho, co jsou vlastní jména, chápání textu na úrovni vět může vést i k chybám vzhledem ke kontextu na úrovni odstavce nebo ještě širšího celku.

Zdroj: TechXplore.com, Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (ArXiv.org)

Poznámky:

Ze zdroje není jasné, zda dostupný Google Translator už neuronovou síť využívá i standardně a pro překlady mezi češtinou. Aktuálně drobný test: Při automatickém překladu původního textu AJ – ČJ se nevyskytl častý problém, popletení/obrácení záporu.

Google v ČR čelí konkurenci Seznamu, takže se předpokládá, že své služby pro nás optimalizuje více než pro jiné země srovnatelné velikosti. Platí to i pro Google Translator? Nebo jsou naopak překlady z/do češtiny negativně ovlivněny tím, že pro češtinu nemáme dostatečnou bázi frází? Či je to od určitého množství už jedno? Jak vypadá kvalita Google Translator pro češtinu ve srovnání třeba s polštinou?


Komentáře

RSS 

Komentujeme

Agilita a devops, přepracování a vyhoření

Pavel Houser , 12. červenec 2018 12:30
Pavel Houser

Michael Cote na The Register upozorňuje na častý problém: nové „agilní“ metody vývoje, všechny příst...

Více







RSS 

Zprávičky

Malware HeroRat ovládne přes aplikaci Telegram mobil nebo tablet

Pavel Houser , 23. červenec 2018 13:41

Objevena byla nová skupina malwaru Android RAT (Remote Administration Tool), které napadají aplikaci...

Více 0 komentářů

Francouzský Atos koupí americký Syntel za 3,6 miliardy dolarů

ČTK , 23. červenec 2018 12:19

Atos akvizicí získá napojení na některé významné americké firmy, jako je American Express....

Více 0 komentářů

Která IT firma dosáhne jako první hodnoty bilionu dolarů?

ČTK , 23. červenec 2018 08:00

Především hodnota Microsfotu za posledního čtyři a půl roku, kdy firmu vede Satya Nadella, výrazně v...

Více 0 komentářů

Kalendář

04. 08.

09. 08.
Black Hat USA 2018
09. 08.

12. 08.
DEF CON 26
06. 09.

07. 09.
Humusoft Technical Computing Camp 2018

Starší zprávičky

Coca-Cola připojí 300 000 chladicích boxů v Evropě k internetu

ČTK , 22. červenec 2018 12:56

Smart chladicí boxy umožňují i interakci prostřednictvím mobilních aplikací....

Více 0 komentářů

Hackeři ukradli zdravotní záznamy 1,5 milionu Singapurců

ČTK , 20. červenec 2018 14:37

Cílem útoku bylo prý získat podrobné údaje o singapurském premiérovi a také o lécích, které užíval....

Více 0 komentářů

Ericsson je díky úsporám v mírném zisku

ČTK , 20. červenec 2018 11:36

Švédský podnik se v poslední době potýkal se slábnoucí poptávkou telekomunikačních operátorů....

Více 0 komentářů

Čip v občanském průkazu si zatím aktivovala třetina lidí

ČTK , 20. červenec 2018 08:00

Prostřednictvím Portálu občana lidé mají přístup např. k údajům o důchodu nebo si mohou pořídit výpi...

Více 0 komentářů