margin-top: 125px; border: 1px solid gray; } -->

SGI Hadoop řešení: přes velká data k porozumění

ITbiz.cz, 27. červen 2012 08:15 0 komentářů
SGI Hadoop řešení: přes velká data k porozumění

Big Data jsou reálný problém, se kterým se dnes musí vypořádávat řada společností, od velkých korporací s jejich pobočkami, přes výrobu, finanční sektor (burzy a banky), telekomunikace až po zdravotnictví a vědu či klíčové vládní instituce. Situace je o to horší, že se adekvátní zpracování a datamining obrovského množství nestrukturovaných dat chápe jako samozřejmost. Co si ale počít tam, kde tradiční řešení selhávají?

Na začátek je nutno říci, že Big Data sama o sobě nepředstavují pouze problém, ale také úžasnou příležitost. Porozumění vlastním datům dává firmám konkurenční výhodu. Okamžitý přístup k obrovským objemům dat a jejich analýza v reálném čase radikálně zvyšuje transparentnost. Společnost či instituce se pak může výrazně rychleji rozhodovat a snížit reakční dobu, to umožňuje organizacím bezprostředně reagovat na změny trhu.

Příklady nejčastějšího využití

Altix 8400
Altix 8400

V oblasti high-performance computingu (HPC), což je hlavní působiště společnosti SGI, nejsou rozsáhlé datové objemy žádnou novinkou, má zde několik desetiletí trvající zkušenost a tudíž značný konkurenční náskok.

Dnes se ale čím dál častěji s bigdaty setkáváme také mimo oblast HPC. Jejich primární zdroj dokonce má po ruce prakticky každý, je jím Internet a zejména uživatelsky generovaná data na sociálních sítích, ta představují nedocenitelný poklad například pro nejedno marketingové oddělení.

Pokud se posuneme od Internetu dále na pole vědy, typickým příkladem práce s velkými daty je výzkum klimatu, který může využívat heterogenní, historické údaje za posledních 100 let pro jednu simulační analýzu. Smysl efektivní práce s velkými daty je tedy jasný, jde o to maximalizovat porozumění informačnímu pokladu, který máme po ruce a za použití vhodných analytických nástrojů pružně reagovat na vědecké, obchodní či průmyslové problémy našeho oboru.

Využití ale podobné nástroje naleznou také třeba v odhalování hospodářské kriminality, čím dál častěji jsou podobné systémy implementovány pro řešení jediného, kritického problému, jako je například odhalování extrémního rozsahu podvodů za použití jedné nebo více novějších analytických metod. Právě pro tyto souvisloti a podobnosti je dnes oblast Big Data vnímána na rozhraní HPC a transakčního zpracování.

Jak na Big data

SGI CloudRack C2
SGI CloudRack C2

Jedním z velmi efektivních a díky svému open source základu také rozhodně ne nejdražších současných přístupů je Hadoop framework pro vytváření datových systémů a pro analýzu dat pomocí rozsáhlých distribuovaných klastrů.

Hadoop je k dispozici jako sada open-sourcových softwarových komponent, které je možné stáhnout na webové stránce hadoop.apache.org.

Apache Hadoop v kombinaci s hardwarem a nadstavbami od SGI představuje unikátní systém pro podnikovou sféru, který dokáže zjednodušit a urychlit nasazení nových technologií pro zpracování informací při současné analýze a optimalizaci výkonu v extrémních zátěžích platformy Hadoop. Ideální je nasazení pro velké objemy dat, které lze snadno rozložit do mnoha menších objemů. SGI k dnešnímu dni nasadila tisíce Hadoop serverů na několika svých systémových architekturách, včetně serverů řady Rackable, CloudRack C2, Altix ICE a 8400.

Jak pracuje Hadoop

Samotný Hadoop se stará o to, že implementuje výpočetní přístup nazvaný MapReduce. V tom je následně celá aplikace rozdělena do velkého množství malých fragmentů úloh, které mohou být spouštěny samostatně bez závislosti na kterémkoli uzlu daného klastru. Hadoop framework pak transparentně zajišťuje aplikacím stabilitu a permanentní přístup k datům. Vedle toho, nabízí Hadoop ještě jeden benefit a to distribuovaný souborový systém, který ukládá data na výpočetních uzlech, to pak zajišťuje velmi vysokou celkovou propustnost napříč klastrem.

Komponenta MapReduce se pak stará o distribuované zpracování. Je li každá jednotlivá mapovací operace nezávislá na ostatních, mohou být všechny mapovací operace prováděny najednou, i když v praxi jsou limitovány počtem jednotlivých datových zdrojů a/nebo počtem CPU v blízkosti každého zdroje. Samotný MapReduce lze aplikovat na výrazně větší datové soubory, než jaké dokážou zvládnout standardní servery. Velký klastr zvládne pomocí MapReduce roztřídit data o velikosti petabytu během několika málo hodin. Paralelně také provádí obnovu dat po částečných výpadcích serverů nebo úložišť během operace. Další důležitou komponentou je pak Hadoop Distributed File System (HDFS).

Neexistuje jedna ideální aplikace Hadoopu pro všechny, vše záleží na konkrétních potřebách I/O, paměti a CPU zdrojů. Ideální serverové konfigurace pro klastrové uzly Hadoopu se velmi liší, ale obecně se doporučuje, aby bylo nasazeno nejméně šest, a pokud možno, více jednotek s PCI HBA pro dosažení výkonu. Konkrétní případ je nutné zkonzultovat se společností SGI.

SGI Hadoop Starter Kit

Základní sady SGI Hadoop Starter Kits obsahují veškeré požadované hardwarové i programové vybavení, vše připraveno k okamžitému nasazení, takže lze snadno potvrdit tuto fungující koncepci a rychle je nasadit do funkčního provozu. SGI Hadoop Starter Kits jsou nyní založeny na nových procesorech Intel Xeon E5-2400 a nabízejí 22-ti % nárůst ceny a výkonu ($/TPM) a 27-mi % nárůst výkonu na watt (TPM/W), ve srovnání s předchozí referenční implementací založenou na procesorech Intel Xeon řady 5600. Společně se softwarem od společnosti Cloudera a s vybranými analytickými partnery poskytují SGI Hadoop klastry nyní ještě větší výkon, zkracují dobu potřebnou k zahájení produkce a spolu se systémy se sdílenou pamětí od SGI a s úložnými systémy poskytuje end-to end řešení pro správu dat velkého rozsahu.

Novinka v podobě excelentního výkonu

Nastávající generace SGI platformy se sdílenou pamětí, SGI UV, určená pro vysokorychlostní datově náročné výpočty, je založena na extrémních procesorech Intel Xeon 4600-E5. Uživatelé budou moci využít významného zvýšení výkonu a zároveň se těšit na zjednodušenou správu, konsolidaci aplikací a jednoduchost nasazení, to vše díky škálování v rámci jedné jedinné instance do rozsahu tisíce jader a mnoha terabajtům paměti ve srovnání s alternativami, které vyžadují stovky uzlů. Systém je zcela otevřený, běží na standardních procesorech Intel x86, standardním Linuxu a využívá ihned dostupných aplikací a middlewaru, to vše při zachování vysoké účinnosti a provozuschopnosti.

Procesor Intel Xeon E5-2400 je nyní základním procesorem pro řešení SGI Hadoop Starter Kit a je k dispozici v produktové řadě SGI Rackable pro využití i v dalších aplikacích.

Systém SGI UV se také opět osvědčil ve stávajících světových benchmarcích extrémního výkonu – SPECjbb2005 (rekord celkové propustnosti) a SPECompL2001, s 58% zlepšením na SPECompL2001 oproti předchozí generaci založené na procesorech Intel Xeon E7. Nastávající generace platformy se sdílenou pamětí od SGI také dosáhla nejlepších benchmarků SPECint_rate_base2006 a SPECfp_rate_base2006 na 64 socketech Intel Xeon 4600-E5.


Komentáře


RSS 

Komentujeme

Chatbot mluví za mrtvého – od nápadu k realizaci

Pavel Houser , 30. listopad 2016 13:00
Pavel Houser

Na webu The Verge popsala Casey Newton příběh dvou přátel (Eugenia Kuyda a Roman Mazurenko). Peripet...

Více





Kalendář

RSS 

Zprávičky

Za vzněcováním smartphonu iPhone 6 jsou vnější vlivy, tvrdí Apple

ČTK , 08. prosinec 2016 11:30

Firma Apple odmítla podezření čínských uživatelů svého chytrého telefonu iPhone 6, že za problémy s ...

Více 0 komentářů

Verizon prodá firmě Equinix datová centra za 3,6 miliardy USD

ČTK , 08. prosinec 2016 10:00

Největší americký mobilní operátor Verizon Communications prodá specializované společnosti Equinix 2...

Více 0 komentářů

Tchajwanský Foxconn jedná o rozšíření svých aktivit v USA

ČTK , 07. prosinec 2016 15:00

Tchajwanská společnost Foxconn jedná o rozšíření svých aktivit ve Spojených státech. Oznámila to dne...

Více 0 komentářů

Starší zprávičky

Nejvyšší soud USA se postavil na stranu Samsungu proti Applu

ČTK , 07. prosinec 2016 12:30

Americký nejvyšší soud se v mnohaletém patentovém sporu mezi výrobci chytrých telefonů Apple a Samsu...

Více 0 komentářů

Evropská komise Microsoftu schválila převzetí sítě LinkedIn

ČTK , 07. prosinec 2016 10:30

Evropská komise schválila americké softwarové společnosti Microsoft záměr koupit za 26 miliard dolar...

Více 0 komentářů

Porozumění větám, konkurence pro Turingův test

Pavel Houser , 06. prosinec 2016 18:00

Konverzační roboti mají stále problémy pochopit věty, kde smysl nelze vyvodit ze samotné gramatické ...

Více 0 komentářů

Americká GoDaddy koupí evropský webhosting Host Europe

ČTK , 06. prosinec 2016 16:00

Americký registrátor internetových domén GoDaddy, který je ve svém oboru největší na světě, se dohod...

Více 0 komentářů