Big data: Nejde jen o množství, ale nové přístupy k využití dat

Luděk Šafář , 02. září 2015 10:00 3 komentářů
Big data: Nejde jen o množství, ale nové přístupy k využití dat

Často diskutované téma představuje otázka, kdy vlastně jde o big data. Tedy kdy se „láme“ tradiční práce s poměrně rozsáhlými objemy dat ve firmách a jak vznikají „velká data“? Jakými klišé je daný pojem zatížen a pro která odvětví jsou big data obzvlášť zajímavá? Odpovědi se snaží nalézt první ze série článků zaměřených právě na tuto oblast.

Nejde jen o objem dat – VVVV znamená i více faktorů

V případě big data nemusí jít zrovna o situaci, kdy dat je velké množství, ale třeba o případy, kdy data přicházejí rychle, nebo se dynamicky mění, či mají extrémně nestejnou formu a dosud nebylo možné je zpracovávat jinou metodou. Z oněch známých čtyř V charakterizujících oblast big data – tedy volume (objem), velocity (rychlost), variety (různorodost) a veracity (věrohodnost) – se obvykle zdůrazňuje pouze objem, tedy že dat je hodně. Avšak nástroje na zpracování dat, kterých je „jen“ hodně, již existují a do značné míry poskytují organizacím kvalitní službu.

Určité klišé, které je na trhu v souvislosti s big data vytvářeno, předpokládá, že dat musíte mít extrémní množství – tak velké, že vám tradiční data warehouse nestačí. Ale není tomu tak.

O big data je totiž možné mluvit tehdy, kdy se řádově mění některý z dalších parametrů ve zpracování. Tedy pokud se například k tradičnímu zpracování dat, pro které organizace dosud využívají data warehouse a data mining, přidá rychlostní parametr. To samé se pak místo v řádu hodin může udát v řádu vteřin a díky rychlosti zpracování lze přispět ke změně v obchodním modelu organizace. Potřebná informace totiž může být k dispozici okamžitě.

Například v Česku neexistuje mnoho firem, které by měly takové množství dat, že by je nebyly schopny standardními technologiemi zpracovávat. Firmy dostatečně nezohledňují skutečnost, kdyby k datům přistupovaly jinak (a rychleji), mohly by změnit způsob jejich zpracování a získávání informací, jež takto vytěžují.

Konkurenční výhodu přináší spojování dat z různých oblastí

Řada organizací v Česku disponuje daty, která „přirozeným způsobem“ sbírají, ale využívají je v zásadě na něco jiného, než jim nové sofistikované technologie umožňují. Typickým příkladem jsou telekomunikační operátoři, kteří mají vybudovanou samostatnou robustní technologii na analýzu informací o zákaznících – tedy kdo jim kdy platí, jaké faktury, za které služby, jak jsou tyto firmy velké apod. Zcela samostatně mají k dispozici i relativně rozsáhlou technologii, která analyzuje data ze sítě – kdo se kdy komu dovolal, jak dlouho trval hovor, jestli to síť unesla/neunesla atd.

Ve většině případů se rozvoj sítě mobilního operátora plánuje jen podle dat z druhé oblasti. Dosud žádný tuzemský telekomunikační operátor nedospěl k tomu, že by uměl tyto dvě oblasti korelovat mezi sebou a rozšiřovat síť nejen na základě toho, jak je využívaná a jestli „stíhá“, ale zda ji v daném regionu či místě využívají zákazníci, kteří operátorovi přinášejí nejvíc byznysu.

Luděk Šafář | EMC
Luděk Šafář | EMC
Propojení obou samostatně propracovaných oblastí není technologicky jednoduché. Platí jedno z výše zmíněných V, v tomto případě „variety“. Data jsou ve formátu, který je standardními mechanismy nekorelovatelný. K tomu jsou potřeba technologické mechanismy – a někteří telekomunikační operátoři v zahraničí je již využívají – umožňující dělat mnohem efektivnější rozhodnutí ohledně investic a účinně obsloužit zákazníky právě díky tomu, že nasadili technologii, která je schopna data spojovat dohromady. Není to tedy opět jen záležitostí množství, ale o jiném vhledu, jak stávající data využívat.

Big data a sociální sítě – přeceňovaná souvislost

Dalším ustáleným klišé je jednoznačné spojování problematiky big data se sociálními sítěmi. Česká republika je v tomto ohledu relativně malá a čeština je extrémně složitý jazyk na sémantickou analýzu, který vytěžování informací ze sociálních sítí komplikuje. Valná většina technologií pro analýzu sociálních sítí vychází z „trendování“, tedy ze sledování nálady, odhadování emocí uživatelů… Čeština je však gramaticky složitá, má různé pády a časy, navíc je v ní často používána ironie a podobné vyšší úrovně jazykového vyjádření. Ty je pro strojové zpracování velmi složité rozpoznat.

Aby bylo možné získat například informaci o určitém trendu, je potřeba mít velké množství informací – extrapolace z malého vzorku je nebezpečná. Jasně nejpoužívanější sociální sítí v Česku je Facebook, ale málokterá firma z něj dokáže vytěžit obchodně hodnotné informace. Valná většina zahraničních firem má analýzu sociálních sítí navázánu na Twitter, ten v českém prostředí ale nepatří k nejpopulárnějším platformám, i když je pro analýzu z různých důvodů jednodušší než Facebook. Lze shrnout, že firmy v tuzemsku zatím data ze sociálních sítí ve velkém rozsahu a smysluplně téměř nevyužívají. Přitom jako příklad v souvislosti s big data se používá právě zejména vytěžování dat ze sociálních sítí, což je ale na Českou republiku obtížně aplikovatelné.

Pro které segmenty jsou big data atraktivní

Z hlediska jednotlivých obchodních či průmyslových odvětví jsou k využívání velkých dat obecně nejblíže firmy, které pracují se zákazníky-jednotlivci, tj. jde o oblast B2C. Je možné analyzovat vztah s člověkem, který sám rozhoduje o tom, co udělá. Čím větší množství lidí, tím lépe. A nikoli analyzovat jejich projevy na sociálních sítích, ale spíše provádět analýzu jejich nákupního chování či jednání v rámci dané organizace. Nejtypičtějším příkladem v tomto směru jsou banky. Přetrvává však velká mezera v tom, jaké veškeré obchodní informace by mohly vytěžit z tak kvalitního zdroje dat, jako je souvislá řada transakcí jedince na jeho osobním účtu. Banky jsou relativně nejdál v přemýšlení o tom, jakým způsobem budou data vytěžovat. Stále využívají především tradiční technologie, postupně zavádějí například vysokovýkonné analýzy, avšak kvalitativní přerod v tom, aby to dělaly významně jinak, zatím nenastal.

Druhou důležitou oblast představují firmy, které sbírají data z výroby, tj. z výrobních linek (strojů, senzorů) například ve strojírenství. Kromě automobilek, jež mají propracované kvalitativní mechanismy, tato data firmy hromadně nevyužívají. Zabývají se převážně zákaznickými daty, ale s velkým množstvím dat z výroby cíleně nepracují. Přitom existuje značný potenciál mimo jiné v propojování s externími datovými zdroji, například o počasí. To by mohlo mít přínosy i „menším“ firmám nebo těm společnostem, které mají primárně korporátní zákazníky, a tudíž nemůžou používat klasické scénáře pro big data, jakými jsou analýza sociálních sítí nebo nákupního chování, clickstream apod.

Třetí oblastí, která má či měla by mít k problematice big data blízko, je veřejný sektor. Stát disponuje extrémním množstvím dat, ale až na bezpečnostní složky, jež v tomto směru experimentují, zatím s těmito daty souvisle nepracuje. Například podobně, jako je tomu v komerční sféře za účelem nalezení lepších „obchodních“ mechanismů vůči „zákazníkům“, v tomto případě občanům.

Luděk Šafář pracuje u společnosti EMC Czech Republic jako Senior Manager Systems Engineer


Komentáře

PZA #0
PZA 02. září 2015 17:51

Autor zrejme vubec netusi jaka velkoobjemova data poskutuje tuzemske webove prostredi. Druhou moznosti je, ze tady EMC nema co nabidnout.

Luděk Šafář #1
Luděk Šafář 07. září 2015 23:45

Dobrý den,
vidíte, a já doteď myslel, že tuším. Ono "velkoobjemová" je relativní. Stejně tak "tady". Já myslím, že EMC má co nabídnout, jen nevím kde je "tady". Ale určitě se ozvěte na ludek.safar<zavináč>emc.com, rád se nechám poučit! Třeba tuším bludy! :-)

PZA #2
PZA 20. září 2015 15:21

Velkoobjemova data je stejna floskule, chcete-li buzzword, jako big data. Pokud budu delat analyzu velkych dat z weboveho prostredi, nebudu vytezovat jenom tuzemsky FB nebo Twitter, ale treba diskusni fora nebo recence produktu na prislusnych serverech. A vysvihnu z toho analyzu jako bic.

To jenom, abychom se stale necitili byt tak hrozne mali a zbytecni.

RSS 

Komentujeme

Sociální sítě pro B2B? Bláznovství!

Richard Jan Voigts , 17. květen 2017 07:00
Richard Jan Voigts

Agentura Ami Digital provedla průzkum ohledně využívání sociálních sítí v České republice. Ami Digit...

Více





RSS 

Zprávičky

Ruská policie zadržela podezřelé z útoku na Sberbank

Pavel Houser , 23. květen 2017 08:00

Ruští hackeři s využitím viru nasazeného do mobilů se systémem Android ukradli asi milion dolarů (24...

Více 0 komentářů

Hodnota bitcoinu stoupla na nový rekord přes 2100 dolarů

ČTK , 22. květen 2017 18:49

Posilování napomáhají mj. spekulace, že americká Komise pro cenné papíry a burzy (SEC) by mohla změn...

Více 0 komentářů

Firewall pro koncentraci VPN

Pavel Houser , 22. květen 2017 17:29

Zyxel Communications představil hardwarový VPN firewall USG2200-VPN. Zákazníkům má toto řešení přiné...

Více 1 komentářů

Starší zprávičky

ČTU hájí novelu zákona o přechodu na DVB-T2

Pavel Houser , 22. květen 2017 14:47

Přechod na nový standard bude spojen s náklady na straně spotřebitele....

Více 0 komentářů

V Česku využívají satelitní pirátský příjem desítky tisíc lidí

ČTK , 22. květen 2017 10:53

Evropský soudní dvůr ale nedávno rozhodl, že prodávat multimediální přehrávače umožňující pirátský s...

Více 2 komentářů

Fond získal téměř 100 miliard dolarů pro technologické investice

ČTK , 22. květen 2017 08:00

Softbank Vision Fund chce investovat do oborů, jako je umělá inteligence nebo robotika. Peníze získa...

Více 0 komentářů

Apple I v Kolíně nad Rýnem vydražili za 110 000 eur

ČTK , 21. květen 2017 09:38

V podobně dobrém stavu se ve světě vyskytuje jen osm těchto přístrojů....

Více 0 komentářů