Big data: Nejde jen o množství, ale nové přístupy k využití dat

Luděk Šafář , 02. září 2015 10:00 3 komentářů
Big data: Nejde jen o množství, ale nové přístupy k využití dat

Často diskutované téma představuje otázka, kdy vlastně jde o big data. Tedy kdy se „láme“ tradiční práce s poměrně rozsáhlými objemy dat ve firmách a jak vznikají „velká data“? Jakými klišé je daný pojem zatížen a pro která odvětví jsou big data obzvlášť zajímavá? Odpovědi se snaží nalézt první ze série článků zaměřených právě na tuto oblast.

Nejde jen o objem dat – VVVV znamená i více faktorů

V případě big data nemusí jít zrovna o situaci, kdy dat je velké množství, ale třeba o případy, kdy data přicházejí rychle, nebo se dynamicky mění, či mají extrémně nestejnou formu a dosud nebylo možné je zpracovávat jinou metodou. Z oněch známých čtyř V charakterizujících oblast big data – tedy volume (objem), velocity (rychlost), variety (různorodost) a veracity (věrohodnost) – se obvykle zdůrazňuje pouze objem, tedy že dat je hodně. Avšak nástroje na zpracování dat, kterých je „jen“ hodně, již existují a do značné míry poskytují organizacím kvalitní službu.

Určité klišé, které je na trhu v souvislosti s big data vytvářeno, předpokládá, že dat musíte mít extrémní množství – tak velké, že vám tradiční data warehouse nestačí. Ale není tomu tak.

O big data je totiž možné mluvit tehdy, kdy se řádově mění některý z dalších parametrů ve zpracování. Tedy pokud se například k tradičnímu zpracování dat, pro které organizace dosud využívají data warehouse a data mining, přidá rychlostní parametr. To samé se pak místo v řádu hodin může udát v řádu vteřin a díky rychlosti zpracování lze přispět ke změně v obchodním modelu organizace. Potřebná informace totiž může být k dispozici okamžitě.

Například v Česku neexistuje mnoho firem, které by měly takové množství dat, že by je nebyly schopny standardními technologiemi zpracovávat. Firmy dostatečně nezohledňují skutečnost, kdyby k datům přistupovaly jinak (a rychleji), mohly by změnit způsob jejich zpracování a získávání informací, jež takto vytěžují.

Konkurenční výhodu přináší spojování dat z různých oblastí

Řada organizací v Česku disponuje daty, která „přirozeným způsobem“ sbírají, ale využívají je v zásadě na něco jiného, než jim nové sofistikované technologie umožňují. Typickým příkladem jsou telekomunikační operátoři, kteří mají vybudovanou samostatnou robustní technologii na analýzu informací o zákaznících – tedy kdo jim kdy platí, jaké faktury, za které služby, jak jsou tyto firmy velké apod. Zcela samostatně mají k dispozici i relativně rozsáhlou technologii, která analyzuje data ze sítě – kdo se kdy komu dovolal, jak dlouho trval hovor, jestli to síť unesla/neunesla atd.

Ve většině případů se rozvoj sítě mobilního operátora plánuje jen podle dat z druhé oblasti. Dosud žádný tuzemský telekomunikační operátor nedospěl k tomu, že by uměl tyto dvě oblasti korelovat mezi sebou a rozšiřovat síť nejen na základě toho, jak je využívaná a jestli „stíhá“, ale zda ji v daném regionu či místě využívají zákazníci, kteří operátorovi přinášejí nejvíc byznysu.

Luděk Šafář | EMC
Luděk Šafář | EMC
Propojení obou samostatně propracovaných oblastí není technologicky jednoduché. Platí jedno z výše zmíněných V, v tomto případě „variety“. Data jsou ve formátu, který je standardními mechanismy nekorelovatelný. K tomu jsou potřeba technologické mechanismy – a někteří telekomunikační operátoři v zahraničí je již využívají – umožňující dělat mnohem efektivnější rozhodnutí ohledně investic a účinně obsloužit zákazníky právě díky tomu, že nasadili technologii, která je schopna data spojovat dohromady. Není to tedy opět jen záležitostí množství, ale o jiném vhledu, jak stávající data využívat.

Big data a sociální sítě – přeceňovaná souvislost

Dalším ustáleným klišé je jednoznačné spojování problematiky big data se sociálními sítěmi. Česká republika je v tomto ohledu relativně malá a čeština je extrémně složitý jazyk na sémantickou analýzu, který vytěžování informací ze sociálních sítí komplikuje. Valná většina technologií pro analýzu sociálních sítí vychází z „trendování“, tedy ze sledování nálady, odhadování emocí uživatelů… Čeština je však gramaticky složitá, má různé pády a časy, navíc je v ní často používána ironie a podobné vyšší úrovně jazykového vyjádření. Ty je pro strojové zpracování velmi složité rozpoznat.

Aby bylo možné získat například informaci o určitém trendu, je potřeba mít velké množství informací – extrapolace z malého vzorku je nebezpečná. Jasně nejpoužívanější sociální sítí v Česku je Facebook, ale málokterá firma z něj dokáže vytěžit obchodně hodnotné informace. Valná většina zahraničních firem má analýzu sociálních sítí navázánu na Twitter, ten v českém prostředí ale nepatří k nejpopulárnějším platformám, i když je pro analýzu z různých důvodů jednodušší než Facebook. Lze shrnout, že firmy v tuzemsku zatím data ze sociálních sítí ve velkém rozsahu a smysluplně téměř nevyužívají. Přitom jako příklad v souvislosti s big data se používá právě zejména vytěžování dat ze sociálních sítí, což je ale na Českou republiku obtížně aplikovatelné.

Pro které segmenty jsou big data atraktivní

Z hlediska jednotlivých obchodních či průmyslových odvětví jsou k využívání velkých dat obecně nejblíže firmy, které pracují se zákazníky-jednotlivci, tj. jde o oblast B2C. Je možné analyzovat vztah s člověkem, který sám rozhoduje o tom, co udělá. Čím větší množství lidí, tím lépe. A nikoli analyzovat jejich projevy na sociálních sítích, ale spíše provádět analýzu jejich nákupního chování či jednání v rámci dané organizace. Nejtypičtějším příkladem v tomto směru jsou banky. Přetrvává však velká mezera v tom, jaké veškeré obchodní informace by mohly vytěžit z tak kvalitního zdroje dat, jako je souvislá řada transakcí jedince na jeho osobním účtu. Banky jsou relativně nejdál v přemýšlení o tom, jakým způsobem budou data vytěžovat. Stále využívají především tradiční technologie, postupně zavádějí například vysokovýkonné analýzy, avšak kvalitativní přerod v tom, aby to dělaly významně jinak, zatím nenastal.

Druhou důležitou oblast představují firmy, které sbírají data z výroby, tj. z výrobních linek (strojů, senzorů) například ve strojírenství. Kromě automobilek, jež mají propracované kvalitativní mechanismy, tato data firmy hromadně nevyužívají. Zabývají se převážně zákaznickými daty, ale s velkým množstvím dat z výroby cíleně nepracují. Přitom existuje značný potenciál mimo jiné v propojování s externími datovými zdroji, například o počasí. To by mohlo mít přínosy i „menším“ firmám nebo těm společnostem, které mají primárně korporátní zákazníky, a tudíž nemůžou používat klasické scénáře pro big data, jakými jsou analýza sociálních sítí nebo nákupního chování, clickstream apod.

Třetí oblastí, která má či měla by mít k problematice big data blízko, je veřejný sektor. Stát disponuje extrémním množstvím dat, ale až na bezpečnostní složky, jež v tomto směru experimentují, zatím s těmito daty souvisle nepracuje. Například podobně, jako je tomu v komerční sféře za účelem nalezení lepších „obchodních“ mechanismů vůči „zákazníkům“, v tomto případě občanům.

Luděk Šafář pracuje u společnosti EMC Czech Republic jako Senior Manager Systems Engineer


Komentáře

PZA #0
PZA 02. září 2015 17:51

Autor zrejme vubec netusi jaka velkoobjemova data poskutuje tuzemske webove prostredi. Druhou moznosti je, ze tady EMC nema co nabidnout.

Luděk Šafář #1
Luděk Šafář 07. září 2015 23:45

Dobrý den,
vidíte, a já doteď myslel, že tuším. Ono "velkoobjemová" je relativní. Stejně tak "tady". Já myslím, že EMC má co nabídnout, jen nevím kde je "tady". Ale určitě se ozvěte na ludek.safar<zavináč>emc.com, rád se nechám poučit! Třeba tuším bludy! :-)

PZA #2
PZA 20. září 2015 15:21

Velkoobjemova data je stejna floskule, chcete-li buzzword, jako big data. Pokud budu delat analyzu velkych dat z weboveho prostredi, nebudu vytezovat jenom tuzemsky FB nebo Twitter, ale treba diskusni fora nebo recence produktu na prislusnych serverech. A vysvihnu z toho analyzu jako bic.

To jenom, abychom se stale necitili byt tak hrozne mali a zbytecni.

RSS 

Komentujeme

Google vs. Oracle: Kdo tahá za kratší konec?

Pavel Houser , 04. duben 2018 11:30
Pavel Houser

Po 8 letech právních sporů vstoupila soudní tahanice mezi Googlem a Oraclem do dalšího kola. Nakolik...

Více







RSS 

Zprávičky

Před 25 lety byl zpřístupněn webový prohlížeč Mosaic

ČTK , 21. duben 2018 15:22

Mosaic se zrodil v průběhu roku 1992 v hlavě Marca Andreessena a jeho kolegy Erica Biny....

Více 0 komentářů

Těžba bitcoinů při kurzu pod 8 600 dolarů je ztrátová

ČTK , 20. duben 2018 11:21

Analytici se domnívají, že poptávka po hardwaru pro těžbu bitcoinů dál klesne, stejně jako cena kryp...

Více 0 komentářů

Netflixu prudce stoupají příjmy i počet odběratelů

ČTK , 20. duben 2018 09:36

Čistý zisk ve čtvrtletí stoupl na 290,1 milionu dolarů, neboli 64 centů na akcii....

Více 0 komentářů

Starší zprávičky

Zájem o přijímače s digitálním rádiem je minimální

ČTK , 20. duben 2018 08:00

Český rozhlas na konci loňského roku rozšířil pokrytí digitálním signálem na 40 % populace....

Více 3 komentářů

eMan vykupuje zpět podíl Jablotronu

Pavel Houser , 19. duben 2018 14:32

Strategie obou společností se po více než 2 letech propojení rozcházejí, kontrolu nad firmou získáva...

Více 0 komentářů

Facebook reaguje na nové normy EU, cílená reklama ale nepřestane

ČTK , 19. duben 2018 10:26

Facebook se začal dotazovat svých uživatelů, zda může v jejich fotografiích a videích používat techn...

Více 2 komentářů

Ruské úřady vs. Telegram

ČTK , 19. duben 2018 08:00

Začaly se objevovat informace o rozsáhlých výpadcích služeb, které se sporem nijak nesouvisejí....

Více 0 komentářů