Neuronová síť Googlu rekonstruuje tváře

Google má další aplikaci pro své neuronové sítě – rekonstrukci obrázků. Jinak řečeno přidávání realistických detailů tam, kde původní informace prostě schází.
Příslušný model („pixel recursive super resolution model“) popisují specialisté z divize Google Brain v článku publikovaném na webu arXiv (preprint, tj. texty, které ještě neprošly oponenturou pro publikování v recenzovaném časopisu). Autory práce jsou Ryan Dahl, Mohammad Norouzi a Jonathon Shlens.
Postup je popsán na příkladu, kdy má systém rekonstruovat lidskou tvář z pouhých 8 x 8 pixelů. Software (síť zvaná conditioning) nejprve identifikuje, že jde o tvář (nebo dostane příslušné tagy jako součást zadání), poté si prohlédne databáze lidských tváří a začne jednotlivé obrázky experimentálně zmenšovat na svých 64 pixelů. Následně zkoumá, nakolik jsou tyto zmenšeniny podobné původnímu obrázku a vybere nejlepší vzor.

Následně do hry vstoupí druhá neuronová síť zvaná PixelCNN, která se podle vzoru snaží z původního obrázku vytvořit i nějak podobný objekt s vyšším rozlišením. Nepracuje ovšem na úrovni pixelů (nemělo by jít prostě o „kombinaci“ existujících obrázků), ale s abstraktními „třídami“ objektů, jako je u lidské tváře třeba brada nebo nos. Čím více takto abstraktních objektů/popisů je k dispozici, tím věrohodnější je výsledek i při zvýšeném rozlišení. Takže např. u lidské tváře lze takto detaily přidat celkem věrohodně, naopak ukázková rekonstrukce ložnice vytváří objekty, které je pro člověka stále obtížné si zařadit.

Práce obou neuronových sítí se navíc kombinuje ve více krocích (zřejmě blíže nespecifikované iterace s předáváním mezivýsledků).

Zdroj: TechXplore.com

Exit mobile version