SGI Hadoop řešení: přes velká data k porozumění

Big Data jsou reálný problém, se kterým se dnes musí vypořádávat řada společností, od velkých korporací s jejich pobočkami, přes výrobu, finanční sektor (burzy a banky), telekomunikace až po zdravotnictví a vědu či klíčové vládní instituce. Situace je o to horší, že se adekvátní zpracování a datamining obrovského množství nestrukturovaných dat chápe jako samozřejmost. Co si ale počít tam, kde tradiční řešení selhávají?

Na začátek je nutno říci, že Big Data sama o sobě nepředstavují pouze problém, ale také úžasnou příležitost. Porozumění vlastním datům dává firmám konkurenční výhodu. Okamžitý přístup k obrovským objemům dat a jejich analýza v reálném čase radikálně zvyšuje transparentnost. Společnost či instituce se pak může výrazně rychleji rozhodovat a snížit reakční dobu, to umožňuje organizacím bezprostředně reagovat na změny trhu.

Příklady nejčastějšího využití

Altix 8400

V oblasti high-performance computingu (HPC), což je hlavní působiště společnosti SGI, nejsou rozsáhlé datové objemy žádnou novinkou, má zde několik desetiletí trvající zkušenost a tudíž značný konkurenční náskok.

Dnes se ale čím dál častěji s bigdaty setkáváme také mimo oblast HPC. Jejich primární zdroj dokonce má po ruce prakticky každý, je jím Internet a zejména uživatelsky generovaná data na sociálních sítích, ta představují nedocenitelný poklad například pro nejedno marketingové oddělení.

Pokud se posuneme od Internetu dále na pole vědy, typickým příkladem práce s velkými daty je výzkum klimatu, který může využívat heterogenní, historické údaje za posledních 100 let pro jednu simulační analýzu. Smysl efektivní práce s velkými daty je tedy jasný, jde o to maximalizovat porozumění informačnímu pokladu, který máme po ruce a za použití vhodných analytických nástrojů
pružně reagovat na vědecké, obchodní či průmyslové problémy našeho oboru.

Využití ale podobné nástroje naleznou také třeba v odhalování hospodářské kriminality, čím dál častěji jsou podobné systémy implementovány pro řešení jediného, kritického problému, jako je například odhalování extrémního rozsahu podvodů za použití jedné nebo více novějších analytických metod. Právě pro tyto souvisloti a podobnosti je dnes oblast Big Data vnímána na rozhraní HPC a transakčního zpracování.

Jak na Big data

SGI CloudRack C2

Jedním z velmi efektivních a díky svému open source základu také rozhodně ne nejdražších současných přístupů je Hadoop framework pro vytváření datových systémů a pro analýzu dat pomocí rozsáhlých distribuovaných klastrů.

Hadoop je k dispozici jako sada open-sourcových softwarových komponent, které je možné stáhnout na webové stránce hadoop.apache.org.

Apache Hadoop v kombinaci s hardwarem a nadstavbami od SGI představuje unikátní systém pro podnikovou sféru, který dokáže zjednodušit a urychlit nasazení nových technologií pro zpracování informací při současné analýze a optimalizaci výkonu v extrémních zátěžích platformy Hadoop. Ideální je nasazení pro velké objemy dat, které lze snadno rozložit do mnoha menších objemů. SGI k dnešnímu dni nasadila tisíce Hadoop serverů na několika svých systémových architekturách, včetně serverů řady Rackable, CloudRack C2, Altix ICE a 8400.

Jak pracuje Hadoop

Samotný Hadoop se stará o to, že implementuje výpočetní přístup nazvaný MapReduce. V tom je následně celá aplikace rozdělena do velkého množství malých fragmentů úloh, které mohou být spouštěny samostatně bez závislosti na kterémkoli uzlu daného klastru.
Hadoop framework pak transparentně zajišťuje aplikacím stabilitu a permanentní přístup k datům. Vedle toho, nabízí Hadoop ještě jeden benefit a to distribuovaný souborový systém, který ukládá data na výpočetních uzlech, to pak zajišťuje velmi vysokou celkovou propustnost napříč klastrem.

Komponenta MapReduce se pak stará o distribuované zpracování. Je li každá jednotlivá mapovací operace nezávislá na ostatních, mohou být všechny mapovací operace prováděny najednou, i když v praxi jsou limitovány počtem jednotlivých datových zdrojů a/nebo počtem CPU v blízkosti každého zdroje. Samotný MapReduce lze aplikovat na výrazně větší datové soubory, než jaké dokážou zvládnout standardní servery.
Velký klastr zvládne pomocí MapReduce roztřídit data o velikosti petabytu během několika málo hodin. Paralelně také provádí obnovu dat po částečných výpadcích serverů nebo úložišť během operace. Další důležitou komponentou je pak Hadoop Distributed File System (HDFS).

Neexistuje jedna ideální aplikace Hadoopu pro všechny, vše záleží na konkrétních potřebách I/O, paměti a CPU zdrojů. Ideální serverové konfigurace pro klastrové uzly Hadoopu se velmi liší, ale obecně se doporučuje, aby bylo nasazeno nejméně šest, a pokud možno, více jednotek s PCI HBA pro dosažení výkonu. Konkrétní případ je nutné zkonzultovat se společností SGI.

SGI Hadoop Starter Kit

Základní sady SGI Hadoop Starter Kits obsahují veškeré požadované hardwarové i programové vybavení, vše připraveno k okamžitému nasazení, takže lze snadno potvrdit tuto fungující koncepci a rychle je nasadit do funkčního provozu. SGI Hadoop Starter Kits jsou nyní založeny na nových procesorech Intel Xeon E5-2400 a nabízejí 22-ti % nárůst ceny a výkonu ($/TPM) a 27-mi % nárůst výkonu na watt (TPM/W), ve srovnání s předchozí referenční implementací založenou na procesorech Intel Xeon řady 5600. Společně se softwarem od společnosti Cloudera a s vybranými analytickými partnery poskytují SGI Hadoop klastry nyní ještě větší výkon, zkracují dobu potřebnou k zahájení produkce a spolu se systémy se sdílenou pamětí od SGI a s úložnými systémy poskytuje end-to end řešení pro správu dat velkého rozsahu.

Novinka v podobě excelentního výkonu

Nastávající generace SGI platformy se sdílenou pamětí, SGI UV, určená pro vysokorychlostní datově náročné výpočty, je založena na extrémních procesorech Intel Xeon 4600-E5. Uživatelé budou moci využít významného zvýšení výkonu a zároveň se těšit na zjednodušenou správu, konsolidaci aplikací a jednoduchost nasazení, to vše díky škálování v rámci jedné jedinné instance do rozsahu tisíce jader a mnoha terabajtům paměti ve srovnání s alternativami, které vyžadují stovky uzlů. Systém je zcela otevřený, běží na standardních procesorech Intel x86, standardním Linuxu a využívá ihned dostupných aplikací a middlewaru, to vše při zachování vysoké účinnosti a provozuschopnosti.

Procesor Intel Xeon E5-2400 je nyní základním procesorem pro řešení SGI Hadoop Starter Kit a je k dispozici v produktové řadě SGI Rackable pro využití i v dalších aplikacích.

Systém SGI UV se také opět osvědčil ve stávajících světových benchmarcích extrémního výkonu – SPECjbb2005 (rekord celkové propustnosti) a SPECompL2001, s 58% zlepšením na SPECompL2001 oproti předchozí generaci založené na procesorech Intel Xeon E7. Nastávající generace platformy se sdílenou pamětí od SGI také dosáhla nejlepších benchmarků SPECintratebase2006 a SPECfpratebase2006 na 64 socketech Intel Xeon 4600-E5.

Exit mobile version