Rozpoznávání obrazu – nenápadný příchod nové killer aplikace?

Výzkumníci v Googlu a na Stanfordově univerzitě nezávisle na sobě oznámili, že jejich software dokáže se slušnou pravděpodobností rozpoznávat digitální fotografie a přiřadit jim význam – respektive je „oštítkovat/otagovat“ automaticky vygenerovanými textovými popisky. Použitou technologií byly v obou případech neuronové sítě, takže metody lze vlastně zařadit do oblasti umělé inteligence. Pojďme se podívat, jak zdánlivě nijak revoluční technologie může proměnit byznys.

Naučit software rozpoznávat obraz se lidé samozřejmě pokouší už dlouho, nyní mají být ale konečně výsledkem prakticky a skoro univerzálně použitelné aplikace. Článek ze Stanfordu je hodně technický a plný vzorečků, přidržíme se tedy toho, co na svém blogu uvádí Google. Tyto materiály jsou naopak pochopitelné i bez toho, aby člověk věděl, jaký je rozdíl mezi konvoluční a rekurentní neuronovou sítí.

Google tvrdí, že jeho software dokáže rozpoznávat i komplexní scény, kde jsou přítomny různé předměty i různí lidé provádějící různé činnosti – nejde tedy o žádné omezené a jednoúčelové OCR ani o vtípek, kdy telefon vyfotí úlohu v sudoku a rovnou najde řešení. Aplikace vyprodukuje popis asi ve stylu „jeden člověk jí pizzu, druhý má v rukou míč“, Google sám jako výsledek svého algoritmu uvádí i příklad „A group of people shopping at an outdoor market. There are many vegetables at the fruit stand.“ Z toho je patrné, že jde vlastně o kombinaci počítačového vidění, na které je ještě nabalena docela složitá práce s přirozeným jazykem. Popisy se mohou generovat v různých jazycích, takže technologie souvisí i s nástroji pro automatizovaný překlad.

Jak přeměnit nestrukturovaná data na strukturovaná

Šéfredaktor ZDNet a TechRepublic Larry Dignan je ve svém komentáři přesvědčen, že se zdaleka nejedná jen o hračku, která dejme tomu zefektivní vyhledávání (kde je přínos nasnadě, třeba nejprve pouze stahování alternativních popisků obrázků či videa při pomalém mobilním připojení apod. – a to i když se na otagování vykašle autor obsahu). I když se technologie bude ještě odlaďovat a některé její aplikace bude teprve třeba vymyslet, jiné přijdou rychle.

Takhle rozpoznávání obrazu funguje výzkumníkům ze Stanfordu (Andrey Karpathy, Li Fei-Fei). Zdroj: Stanford University

Konkrétně se má podle Dignana jednat třeba o big data. Všude je dnes plno videodat, software může nyní z nestrukturovaného chaosu udělat data strukturovaná. Když rozpoznávání předmětů spojíme s rozpoznáváním tváře, může divák náhle vznášet dotazy ve stylu „přehrajte mi všechny záběry, kde xy dal gól“ eventuálně třeba až „všechny šlehačkové bitvy z éry němého filmu“. Dnes se pod pojmem média/video on demand myslí úroveň jednotlivých pořadů, takhle si uživatel bude moci sestavit vlastní mix mnohem speciálnější.

Chytré kamery pro bezpečnost i prodej

Další přímo se nabízející aplikací je propojení se všudypřítomnými bezpečnostními kamerami. Když to opět spojíte s rozlišováním jednotlivých tváří, lze třeba v reálném čase a automaticky získat ze systému upozornění, že do budovy vešel někdo, kdo sem obvykle nechodí (přišel poprvé). Systém by mohl ihned poznat, že někdo vytáhl zbraň. Měli by se snad operátoři bezpečnostních kamer bát o práci? Kamery jsou dnes natolik všude, že nad jejich daty, kdyby byly nějak propojené, by už dnes nemuselo být problém např. hned zjistit, kam se vám zaběhl pes.

Nejde přitom jen o bezpečnost, ale také o prodej, marketing a zjišťování zákaznických preferencí. Software by hned dokázal říkat, co lidé obcházejí, co si berou do ruky, ale nakonec nedají do košíku. Když je někde na displeji upozornění na slevu, ale nikdo se tím směrem nevydává, podobu upozornění lze ihned změnit. Provozovatel restaurace by třeba dokázal nějak využít informaci, zda hosté zeleninovou oblohu spíše jedí k jídlu a nebo ji konzumují až nakonec. Na váze v supermarketu nebudete muset mačkat, jakou zeleninu vážíte, systém to pozná sám (taková chytrá váha už ovšem byla avizována před pár lety). Automatizovaná pokladna si sama poradí i s pečivem a dalším zbožím bez čárového kódu. Výhodou všech těchto aplikací navíc je, že získáte nějak přínosná data i tehdy, nebude-li rozpoznávání fungovat úplně spolehlivě, půjde je tedy asi nasazovat dostatečně rychle.

Bílé hole a roboti

Přesné vidění by se mohlo hodit ve zdravotnictví, software by automaticky vyhodnocoval různé snímky (to už zase jde asi i dnes), kamera ve sprše by vás upozornila, že piha na zádech se jí nějak nezdá (to bude ještě nějaký čas asi trvat). „Otagování“ celého světa by výrazně mohlo zvýšit objem informací, které jsou přístupné nevidomým. Chytrá bílá hůl by majitele upozorňovala na překážky i blížící se vozidla – tohle je třeba ale druh aplikace, která bude možná teprve s vysokou, prakticky 100% spolehlivostí technologie.

Zapomínat nejde na robotiku. Pokud robot, respektive jeho software dokáže rozpoznat, co předmět přesně je, bude s ním také spíše schopen adekvátně manipulovat. Se sklenicí piva se dělá něco jiného než s jablkem. Pečovatelský robot v domácnosti by měl určitě odlišovat svého majitele a nábytek. I když zde jde jen o první krok – roboti jsou dosud po pravdě řečeno docela nešikovní a kromě chytrých očí by potřebovali také šikovnější prsty. Málo se ví třeba o tom, že dosud žádný robot nedokáže pořádně ani hrát šachy. Totiž nikoliv jen manipulovat se symboly/daty, ale s reálnými fyzickými figurkami (rozpoznat je od sebe, rozpoznat tahy soupeře a mít dostatečně jemné prsty, aby robot táhl figurkou a nezbořil přitom celou pozici).
Určitě se najde i nějaké vojenské využití, třeba rozpoznávání techniky vlastní od nepřátelské, obecně vývoj stále autonomněji pracujících zbraňových systémů.

Kdo dřív přijde…

Jistěže se v souvislosti s novou technologií ozvou kritici, kteří budou poukazovat třeba na možnosti účinnějšího sledování a tedy dalšího narušení soukromí, to ale není tak podstatné. Je spíše čas položit si otázku, jak lze technologii využít ve vlastním podnikání, eventuálně jak přímo na ní postavit vlastní a dosud nemožný obchodní model. Kdo přijde první… Představte si třeba, co by se všechno dalo podniknout kombinací rozpoznávání obrazu a Apple Siri.

Konkrétní rozdělení automatického rozpoznávání podle úspěšnosti, jak ji hodnotí lidé: bez chyby, s menšími nepřesnostmi, na obrázku je něco podobného a ještě zůstává i kategorie „úplně špatně“. Google hodlá na základě těchto hodnocení technologii dále vylepšovat pomocí strojového učení.

Zdroj: Google

Exit mobile version